"蝌"学留声机
128k上下文窗口!大模型能“读”完一部长篇小说了
摘要:上下文长度指大模型一次能处理的输入文本长度(含对话历史),以Token为单位, 128KToken约对应10万字中文,

摘要:

上下文长度指大模型一次能处理的输入文本长度(含对话历史),以Token为单位,128K Token 约对应 10 万字中文,相当于一部长篇小说体量。其对大模型意义重大:能支持长文档深度分析,如提炼学术论文创新点、查代码漏洞;维持多轮对话连贯,记住用户偏好避免重复提问;提供丰富背景减少 “幻觉”,提升输出准确性;还能实现复杂多步骤任务编排。

但扩展上下文长度也有挑战:Transformer 架构下,计算复杂度随Token数量平方级增长,硬件和成本压力大;且上下文是对话级临时记忆,新对话无法继承历史交互信息。目前学界和产业界正通过优化注意力机制、外挂记忆库等技术,力求在控制成本的同时提升超长上下文的利用效率。

图源:科普中国


148754
128k上下文窗口!大模型能“读”完一部长篇小说了
1305
蝌学留声机
新闻
蝌蚪五线谱
蝌蚪五线谱
2025-09-04