思考 | Tangc.pro's blog

编者按这是一次关于大语言模型（LLM）本质的对话。从"相似性"这个直觉出发，聊到预训练、参数、注意力机制，最后聊到一个核心问题：LLM 真的在"理解"吗？有技术细节，也有对 AI 本质的冷静看法。第一部分：预训练 —— 压缩互联网，不是背书问：帮我理解 LLM 如何能准确生成正确的答案，它内部是怎么理解知识和上下文的？我之前了解过，似乎就是相似性，通过预训练投喂 LLM 模型。答：你说的"相似性"是对的，但更准确说是高维空间中的位置关系。预训练时，模型看了海量文本，但它不是在记忆，而是在压缩规律。想象你要总结一本小说——背下来每一句话是死记硬背，学会"主角遇到困难会怎么做"才是掌握规律。LLM 做的是后者。它学会的是因果关系、语义关系（“国王 - 王后 ≈ 男 - 女”）、代码缩进规则、数学推理链条……这些规律被压缩进参数（权重）里。每个词被转成一个向量（比如 12288 维），在这个空间里，“猫"和"狗"距离近，“猫"和"汽车"距离远。相似概念在空间中聚集，不同概念分散。模型通过位置关系"理解"语义。第二部分：参数 —— 不是输入，是"大脑” 问：通常说的什么 xx B 参数，这个参数怎么理解，和程序开发中的方法参数类的有什么关系？答：这两个"参数"完全不是一回事，只是中文翻译撞名了。程序参数是输入，你调用时传进去的。而 LLM 的"参数"指的是模型内部的权重数量——训练完成后固定在那里的数值。 7B 模型 = 70 亿个权重 70B 模型 = 700 亿个权重一个简化的例子： # 一个最简单的神经元 def neuron(x, w, b): # x 是输入，w 和 b 是"参数" return w * x + b LLM 有几十亿个这样的 w 和 b，层层连接形成网络。训练就是不断调整这些数，让输出越来越对。类比一下：程序参数是你给函数的输入，LLM 参数是烘焙师傅 20 年积累的手感。你调用师傅（输入文本），他用手感（参数）做出蛋糕（输出）。 ...