涌现(Emergence):系统整体表现出其组成部分所没有的性质。蚁群没有中央指挥,但能建造复杂的巢穴;神经元不会"思考",但大脑会。
LLM 的涌现能力:
在模型规模超过某个阈值之前,某些能力几乎不存在。跨过阈值后,能力突然出现:
- 算术能力:在小模型上几乎不存在,中型模型开始出现
- 多步推理:需要足够大的模型才能稳定表现
- 指令跟随:小模型倾向于补全,大模型才真正"理解指令"
这对工程实践意味着什么:
不要用小模型的表现来预判大模型的极限。
如果一个 prompt 在 Haiku 上效果差,不代表它不是好 prompt。可能这个任务需要更强的涌现能力。
反过来:不要过度依赖涌现。
涌现能力不可靠——同一个模型在不同上下文下,某个能力可能时有时无。关键任务要用显式约束,不要寄希望于"Claude 应该知道"。
Multi-Agent 的涌现效应:
单个 Agent:规划 + 执行 + 验证 = 互相干扰
三个 Agent:规划 Agent + 执行 Agent + 验证 Agent = 角色分离,互相制衡
这不仅仅是分工——多 Agent 系统会产生单 Agent 没有的纠错行为。验证 Agent 不受"我刚才这么写了"的锚定效应影响,能更客观地发现问题。
涌现的代价:不可预测性
涌现能力难以通过简单测试验证,因为: - 边界模糊(什么规模触发,不确定) - 上下文敏感(同一能力在不同 prompt 下表现不同) - 样本依赖(单次测试不代表稳定能力)
实用原则:
关键任务的能力,用测试集验证,不用直觉判断。Claude 能做到 X,意味着在特定条件下曾经做到过 X,不代表每次都能。
设计 Agent 系统时,把涌现当作惊喜,把显式设计当作基础。