信息几何(Information Geometry)研究概率分布空间的几何结构。直觉上听起来抽象,但它给出了一个极其实用的框架:不同的表达方式在"意义空间"中的距离是可以度量的。
Fisher 信息度量:
gᵢⱼ = E[∂ log p(x;θ)/∂θᵢ · ∂ log p(x;θ)/∂θⱼ]
简单说:这个度量告诉你,改变参数 θ 会让概率分布变化多少。
对 Prompt Engineering 的启示:
不同的 prompt 在"意义空间"中可能距离很远,即使它们字面上看起来相似。
# 字面距离近,语义距离远
"写一个函数" vs "实现一个函数"
# 字面距离远,语义距离近
"创建用户账户" vs "注册新用户"
Claude 在语义空间里工作,字面相似不代表会产生相同的行为。
Geodesic Path(测地线):最短路径不总是直线
在弯曲的信息空间里,两点之间的最短路径是测地线,不是欧式距离的直线。
工程类比:要到达目标回应,最有效的 prompt 路径往往是反直觉的。
# 直觉路径(低效):
"给我一个完整的、全面的、详细的错误处理实现..."
# 测地线路径(高效):
"只处理这三种错误情况:连接超时、权限不足、数据不存在。
其他情况透传原始错误。"
越想"全面",越容易偏离目标。约束是测地线上的路标。
KL Divergence(KL 散度):量化 Prompt 偏差
KL(P||Q) 衡量用分布 Q 来近似分布 P 时的信息损失。
对话类比:当 Claude 的理解(Q)偏离你的意图(P),KL 散度变大。
减少散度的方法: 1. 提供具体例子(缩小 P 和 Q 的差距) 2. 指出错误并纠正(梯度下降) 3. 换一个表达框架(重新参数化)
信息瓶颈(Information Bottleneck)原理:
一个好的中间表示应该最大化"保留与任务相关的信息",最小化"保留输入的总信息量"。
Prompt 设计的类比:好的 prompt 不是塞满信息,而是只保留对任务最相关的信息。多余信息不是中性的,它会压缩任务相关的信号。
实用原则:
当 Claude 的回答持续偏向你不想要的方向,不要只加更多描述——考虑彻底换一个 framing。你可能已经在一个局部最优的 prompt 空间里,需要跳出来重新参数化整个问题。