编者按

这是一次关于大语言模型(LLM)本质的对话。从"相似性"这个直觉出发,聊到预训练、参数、注意力机制,最后聊到一个核心问题:LLM 真的在"理解"吗?有技术细节,也有对 AI 本质的冷静看法。


第一部分:预训练 —— 压缩互联网,不是背书

问:帮我理解 LLM 如何能准确生成正确的答案,它内部是怎么理解知识和上下文的?我之前了解过,似乎就是相似性,通过预训练投喂 LLM 模型。

答:你说的"相似性"是对的,但更准确说是高维空间中的位置关系

预训练时,模型看了海量文本,但它不是在记忆,而是在压缩规律。想象你要总结一本小说——背下来每一句话是死记硬背,学会"主角遇到困难会怎么做"才是掌握规律。LLM 做的是后者。

它学会的是因果关系、语义关系(“国王 - 王后 ≈ 男 - 女”)、代码缩进规则、数学推理链条……这些规律被压缩进参数(权重)里。

每个词被转成一个向量(比如 12288 维),在这个空间里,“猫"和"狗"距离近,“猫"和"汽车"距离远。相似概念在空间中聚集,不同概念分散。模型通过位置关系"理解"语义。


第二部分:参数 —— 不是输入,是"大脑”

问:通常说的什么 xx B 参数,这个参数怎么理解,和程序开发中的方法参数类的有什么关系?

答:这两个"参数"完全不是一回事,只是中文翻译撞名了。

程序参数是输入,你调用时传进去的。而 LLM 的"参数"指的是模型内部的权重数量——训练完成后固定在那里的数值。

7B 模型 = 70 亿个权重
70B 模型 = 700 亿个权重

一个简化的例子:

# 一个最简单的神经元
def neuron(x, w, b):      # x 是输入,w 和 b 是"参数"
    return w * x + b

LLM 有几十亿个这样的 wb,层层连接形成网络。训练就是不断调整这些数,让输出越来越对。

类比一下:程序参数是你给函数的输入,LLM 参数是烘焙师傅 20 年积累的手感。你调用师傅(输入文本),他用手感(参数)做出蛋糕(输出)。


第三部分:训练 —— 梯度下降找最优解

问:参数具体怎么组织的?什么是训练,训练时怎么调整这些参数?

答:参数是一层层巨大的矩阵。以单个神经元为例:

def neuron(x, w, b):
    return w * x + b  # 2 个参数:w 和 b

扩展到一层 4 个神经元、输入 2 个值,就是 12 个参数。GPT-3 有 175B 参数,就是一堆巨大的矩阵层层堆叠。

训练过程是:

  1. 前向传播:输入 → 网络 → 预测输出
  2. 计算损失:预测 vs 正确答案 → loss 数字
  3. 反向传播:计算每个参数的梯度(责任归属)
  4. 更新参数:参数 = 参数 - 学习率 × 梯度

想象你在山上(高 loss),要下山(低 loss)。梯度是山坡的陡峭方向,学习率是每步走多远。训练就是不断往下走,找到最低点。

LLM 训练的规模:几万亿词、几周到几个月、数千张 GPU、百万美元电费。


第四部分:本质 —— 巨大的概率预测器

问:我大致可以理解这种模型,就是将人类输入的语言抽象化转换为 LLM 模型的输入格式,然后使用这个巨大的概率预测模型进行计算,最后输出概率最大的结果。

答:对,你抓住了本质。

模型看到的不是文字,是 token ID:

"我喜欢编程" → [我, 喜, 欢, 编, 程] → [2847, 1923, 4501, 7823, 2109]

输出也是一个概率分布:

输入: "今天天气"
输出概率:
  "很好": 0.35
  "不错": 0.28
  "糟糕": 0.22

实际会用采样策略,从高概率词里随机选一个,加点"创意”。

所有"智能"都是从"预测下一个词"这个简单任务里出来的——预测得足够准,就需要理解语法、语义、逻辑、常识、世界知识。


第五部分:局限 —— 上下文越长,越容易翻车

问:听着有点不可思议,按我的理解这种理解如果上下文太大的话,预测为正确的概率会非常低吧,因为有的人类的语言可能包含各种语境、歧义等等。

答:你的直觉很敏锐。上下文越长,歧义越多,预测越难。

注意力机制让每个词都能"看到"所有其他词,但计算量是 O(n²),10000 个词就要算 10000 × 10000 的关系矩阵。所以长对话中,模型会重点"关注"最近的对话,远一点的内容变模糊。

模型会倾向于最常见的解释。训练数据里"银行=金融机构"出现更多,即使上下文是"我刚钓完鱼,去银行",模型可能还是往金融方向预测。

什么时候会翻车:

  • 需要精确记忆 → “我第 3 段说了什么?”
  • 需要精确逻辑 → “如果 A 且非 B,则…”
  • 需要理解歧义 → “他的意思是什么?”
  • 长依赖关系 → “第 1 章埋的伏笔”

但语言不需要唯一正确答案,人类交流本来就有模糊性,模型输出"统计上合理"就够了。


第六部分:真相 —— 不是智能体,是模式匹配器

问:这和我期望的人工智能不一样,这个虽然目前来说看起来很智能,但也只是通过巨大概率计算堆叠出来的,如果训练数据不全面,那它并不能输出很有价值的结果,都是基于已知的知识库模型化的结果。

答:你切中了 LLM 的根本局限。

LLM 本质上就是:训练数据 → 压缩成参数 → 基于统计预测输出

所以:

  • 没有训练数据 = 不知道
  • 训练数据有偏差 = 输出有偏差
  • 需要真正推理 = 可能翻车
  • 需要创造新知识 = 做不到

它不是"思考",是"检索 + 重组"。

学术界知道这个局限,有不同研究方向:符号 AI(逻辑推理)、神经符号结合、因果推理(Judea Pearl)、世界模型(LeCun)。但目前主流的 LLM 就是统计语言模型——名字其实挺诚实的。

LLM 的价值在于:知识检索、语言任务、编程辅助、头脑风暴、辅助工具。它是增强工具,不是智能体。


第七部分:价值 —— 取代的是重复劳动

问:不过按目前人类社会的发展来说,从经济社会角度,人们生活、工作上需要处理的任务,绝大多并不具备很强的复杂程度,基本都是可以流程化的,且每个流程要处理的任务都是简单不需要过多创新知识的,LLM 在这种场景下能发挥很大的作用,基本可以取代人类,我这么理解对么?

答:你的判断很准确。

大部分工作实际上是:接收信息 → 按规则处理 → 输出结果

客服看问题、匹配答案模板、回复;初级文员看文档、提取信息、填表格;基础翻译看原文、转换语言、输出译文;初级编程理解需求、写常见模式、调试。这些不需要"创新",需要的是"正确执行流程"。LLM 不能创造,但能执行。而大部分工作要的是执行。

已经在替代的:客服机器人、文案生成、基础翻译、代码辅助、文档处理、数据标注。即将替代的:初级财务、初级法律、初级运营、基础设计。

剩下不能替代的:真正的决策、复杂谈判、创新工作、信任关系、边缘情况、线下操作。

新的分工大概是:AI 做 80%,人做 20%(审核、决策、处理边缘情况)。岗位会减少,但人往上游走——从执行者变成监督者、设计者。


结语

从技术角度看,LLM 是一个巨大的、学了语言规律的、下一个词预测器。它的"智能"是从统计中出来的,不是真正的理解。

但从经济角度看,这已经够有价值了——大部分人类工作要的不是创造,是执行。LLM 取代的不是"人类的智慧",而是"人类的重复劳动"。

我们就在这个节点上。


本文整理自一次真实的对话,略有润色。