对话:LLM 真的在「理解」吗?—— 揭开大语言模型的工作原理

编者按 这是一次关于大语言模型(LLM)本质的对话。从"相似性"这个直觉出发,聊到预训练、参数、注意力机制,最后聊到一个核心问题:LLM 真的在"理解"吗?有技术细节,也有对 AI 本质的冷静看法。 第一部分:预训练 —— 压缩互联网,不是背书 问:帮我理解 LLM 如何能准确生成正确的答案,它内部是怎么理解知识和上下文的?我之前了解过,似乎就是相似性,通过预训练投喂 LLM 模型。 答:你说的"相似性"是对的,但更准确说是高维空间中的位置关系。 预训练时,模型看了海量文本,但它不是在记忆,而是在压缩规律。想象你要总结一本小说——背下来每一句话是死记硬背,学会"主角遇到困难会怎么做"才是掌握规律。LLM 做的是后者。 它学会的是因果关系、语义关系(“国王 - 王后 ≈ 男 - 女”)、代码缩进规则、数学推理链条……这些规律被压缩进参数(权重)里。 每个词被转成一个向量(比如 12288 维),在这个空间里,“猫"和"狗"距离近,“猫"和"汽车"距离远。相似概念在空间中聚集,不同概念分散。模型通过位置关系"理解"语义。 第二部分:参数 —— 不是输入,是"大脑” 问:通常说的什么 xx B 参数,这个参数怎么理解,和程序开发中的方法参数类的有什么关系? 答:这两个"参数"完全不是一回事,只是中文翻译撞名了。 程序参数是输入,你调用时传进去的。而 LLM 的"参数"指的是模型内部的权重数量——训练完成后固定在那里的数值。 7B 模型 = 70 亿个权重 70B 模型 = 700 亿个权重 一个简化的例子: # 一个最简单的神经元 def neuron(x, w, b): # x 是输入,w 和 b 是"参数" return w * x + b LLM 有几十亿个这样的 w 和 b,层层连接形成网络。训练就是不断调整这些数,让输出越来越对。 类比一下:程序参数是你给函数的输入,LLM 参数是烘焙师傅 20 年积累的手感。你调用师傅(输入文本),他用手感(参数)做出蛋糕(输出)。 ...

March 3, 2026 · AI / 思考 · 2 min · 262 words · map[email:onetick@live.cn name:Hongyu]