📐 思维模型手册/信息几何:理解 Prompt 空间中的距离
Pro2 分钟阅读19 天内

信息几何:理解 Prompt 空间中的距离

#mental-models#information-theory#geometry#prompting𝕏 分享

信息几何(Information Geometry)研究概率分布空间的几何结构。直觉上听起来抽象,但它给出了一个极其实用的框架:不同的表达方式在"意义空间"中的距离是可以度量的

Fisher 信息度量:

gᵢⱼ = E[∂ log p(x;θ)/∂θᵢ · ∂ log p(x;θ)/∂θⱼ]

简单说:这个度量告诉你,改变参数 θ 会让概率分布变化多少。

对 Prompt Engineering 的启示:

不同的 prompt 在"意义空间"中可能距离很远,即使它们字面上看起来相似。

# 字面距离近,语义距离远
"写一个函数" vs "实现一个函数"

# 字面距离远,语义距离近  
"创建用户账户" vs "注册新用户"

Claude 在语义空间里工作,字面相似不代表会产生相同的行为。

Geodesic Path(测地线):最短路径不总是直线

在弯曲的信息空间里,两点之间的最短路径是测地线,不是欧式距离的直线。

工程类比:要到达目标回应,最有效的 prompt 路径往往是反直觉的。

# 直觉路径(低效):
"给我一个完整的、全面的、详细的错误处理实现..."

# 测地线路径(高效):  
"只处理这三种错误情况:连接超时、权限不足、数据不存在。
其他情况透传原始错误。"

越想"全面",越容易偏离目标。约束是测地线上的路标。

KL Divergence(KL 散度):量化 Prompt 偏差

KL(P||Q) 衡量用分布 Q 来近似分布 P 时的信息损失。

对话类比:当 Claude 的理解(Q)偏离你的意图(P),KL 散度变大。

减少散度的方法: 1. 提供具体例子(缩小 P 和 Q 的差距) 2. 指出错误并纠正(梯度下降) 3. 换一个表达框架(重新参数化)

信息瓶颈(Information Bottleneck)原理:

一个好的中间表示应该最大化"保留与任务相关的信息",最小化"保留输入的总信息量"。

Prompt 设计的类比:好的 prompt 不是塞满信息,而是只保留对任务最相关的信息。多余信息不是中性的,它会压缩任务相关的信号。

实用原则:

当 Claude 的回答持续偏向你不想要的方向,不要只加更多描述——考虑彻底换一个 framing。你可能已经在一个局部最优的 prompt 空间里,需要跳出来重新参数化整个问题。

← 上一篇涌现与 AI 能力的非线性增长