编者按
这是一次关于大语言模型(LLM)本质的对话。从"相似性"这个直觉出发,聊到预训练、参数、注意力机制,最后聊到一个核心问题:LLM 真的在"理解"吗?有技术细节,也有对 AI 本质的冷静看法。
第一部分:预训练 —— 压缩互联网,不是背书
问:帮我理解 LLM 如何能准确生成正确的答案,它内部是怎么理解知识和上下文的?我之前了解过,似乎就是相似性,通过预训练投喂 LLM 模型。
答:你说的"相似性"是对的,但更准确说是高维空间中的位置关系。
预训练时,模型看了海量文本,但它不是在记忆,而是在压缩规律。想象你要总结一本小说——背下来每一句话是死记硬背,学会"主角遇到困难会怎么做"才是掌握规律。LLM 做的是后者。
它学会的是因果关系、语义关系(“国王 - 王后 ≈ 男 - 女”)、代码缩进规则、数学推理链条……这些规律被压缩进参数(权重)里。
每个词被转成一个向量(比如 12288 维),在这个空间里,“猫"和"狗"距离近,“猫"和"汽车"距离远。相似概念在空间中聚集,不同概念分散。模型通过位置关系"理解"语义。
第二部分:参数 —— 不是输入,是"大脑”
问:通常说的什么 xx B 参数,这个参数怎么理解,和程序开发中的方法参数类的有什么关系?
答:这两个"参数"完全不是一回事,只是中文翻译撞名了。
程序参数是输入,你调用时传进去的。而 LLM 的"参数"指的是模型内部的权重数量——训练完成后固定在那里的数值。
7B 模型 = 70 亿个权重
70B 模型 = 700 亿个权重
一个简化的例子:
# 一个最简单的神经元
def neuron(x, w, b): # x 是输入,w 和 b 是"参数"
return w * x + b
LLM 有几十亿个这样的 w 和 b,层层连接形成网络。训练就是不断调整这些数,让输出越来越对。
类比一下:程序参数是你给函数的输入,LLM 参数是烘焙师傅 20 年积累的手感。你调用师傅(输入文本),他用手感(参数)做出蛋糕(输出)。
第三部分:训练 —— 梯度下降找最优解
问:参数具体怎么组织的?什么是训练,训练时怎么调整这些参数?
答:参数是一层层巨大的矩阵。以单个神经元为例:
def neuron(x, w, b):
return w * x + b # 2 个参数:w 和 b
扩展到一层 4 个神经元、输入 2 个值,就是 12 个参数。GPT-3 有 175B 参数,就是一堆巨大的矩阵层层堆叠。
训练过程是:
- 前向传播:输入 → 网络 → 预测输出
- 计算损失:预测 vs 正确答案 → loss 数字
- 反向传播:计算每个参数的梯度(责任归属)
- 更新参数:参数 = 参数 - 学习率 × 梯度
想象你在山上(高 loss),要下山(低 loss)。梯度是山坡的陡峭方向,学习率是每步走多远。训练就是不断往下走,找到最低点。
LLM 训练的规模:几万亿词、几周到几个月、数千张 GPU、百万美元电费。
第四部分:本质 —— 巨大的概率预测器
问:我大致可以理解这种模型,就是将人类输入的语言抽象化转换为 LLM 模型的输入格式,然后使用这个巨大的概率预测模型进行计算,最后输出概率最大的结果。
答:对,你抓住了本质。
模型看到的不是文字,是 token ID:
"我喜欢编程" → [我, 喜, 欢, 编, 程] → [2847, 1923, 4501, 7823, 2109]
输出也是一个概率分布:
输入: "今天天气"
输出概率:
"很好": 0.35
"不错": 0.28
"糟糕": 0.22
实际会用采样策略,从高概率词里随机选一个,加点"创意”。
所有"智能"都是从"预测下一个词"这个简单任务里出来的——预测得足够准,就需要理解语法、语义、逻辑、常识、世界知识。
第五部分:局限 —— 上下文越长,越容易翻车
问:听着有点不可思议,按我的理解这种理解如果上下文太大的话,预测为正确的概率会非常低吧,因为有的人类的语言可能包含各种语境、歧义等等。
答:你的直觉很敏锐。上下文越长,歧义越多,预测越难。
注意力机制让每个词都能"看到"所有其他词,但计算量是 O(n²),10000 个词就要算 10000 × 10000 的关系矩阵。所以长对话中,模型会重点"关注"最近的对话,远一点的内容变模糊。
模型会倾向于最常见的解释。训练数据里"银行=金融机构"出现更多,即使上下文是"我刚钓完鱼,去银行",模型可能还是往金融方向预测。
什么时候会翻车:
- 需要精确记忆 → “我第 3 段说了什么?”
- 需要精确逻辑 → “如果 A 且非 B,则…”
- 需要理解歧义 → “他的意思是什么?”
- 长依赖关系 → “第 1 章埋的伏笔”
但语言不需要唯一正确答案,人类交流本来就有模糊性,模型输出"统计上合理"就够了。
第六部分:真相 —— 不是智能体,是模式匹配器
问:这和我期望的人工智能不一样,这个虽然目前来说看起来很智能,但也只是通过巨大概率计算堆叠出来的,如果训练数据不全面,那它并不能输出很有价值的结果,都是基于已知的知识库模型化的结果。
答:你切中了 LLM 的根本局限。
LLM 本质上就是:训练数据 → 压缩成参数 → 基于统计预测输出
所以:
- 没有训练数据 = 不知道
- 训练数据有偏差 = 输出有偏差
- 需要真正推理 = 可能翻车
- 需要创造新知识 = 做不到
它不是"思考",是"检索 + 重组"。
学术界知道这个局限,有不同研究方向:符号 AI(逻辑推理)、神经符号结合、因果推理(Judea Pearl)、世界模型(LeCun)。但目前主流的 LLM 就是统计语言模型——名字其实挺诚实的。
LLM 的价值在于:知识检索、语言任务、编程辅助、头脑风暴、辅助工具。它是增强工具,不是智能体。
第七部分:价值 —— 取代的是重复劳动
问:不过按目前人类社会的发展来说,从经济社会角度,人们生活、工作上需要处理的任务,绝大多并不具备很强的复杂程度,基本都是可以流程化的,且每个流程要处理的任务都是简单不需要过多创新知识的,LLM 在这种场景下能发挥很大的作用,基本可以取代人类,我这么理解对么?
答:你的判断很准确。
大部分工作实际上是:接收信息 → 按规则处理 → 输出结果
客服看问题、匹配答案模板、回复;初级文员看文档、提取信息、填表格;基础翻译看原文、转换语言、输出译文;初级编程理解需求、写常见模式、调试。这些不需要"创新",需要的是"正确执行流程"。LLM 不能创造,但能执行。而大部分工作要的是执行。
已经在替代的:客服机器人、文案生成、基础翻译、代码辅助、文档处理、数据标注。即将替代的:初级财务、初级法律、初级运营、基础设计。
剩下不能替代的:真正的决策、复杂谈判、创新工作、信任关系、边缘情况、线下操作。
新的分工大概是:AI 做 80%,人做 20%(审核、决策、处理边缘情况)。岗位会减少,但人往上游走——从执行者变成监督者、设计者。
结语
从技术角度看,LLM 是一个巨大的、学了语言规律的、下一个词预测器。它的"智能"是从统计中出来的,不是真正的理解。
但从经济角度看,这已经够有价值了——大部分人类工作要的不是创造,是执行。LLM 取代的不是"人类的智慧",而是"人类的重复劳动"。
我们就在这个节点上。
本文整理自一次真实的对话,略有润色。