信息几何：理解 Prompt 空间中的距离

信息几何（Information Geometry）研究概率分布空间的几何结构。直觉上听起来抽象，但它给出了一个极其实用的框架：不同的表达方式在"意义空间"中的距离是可以度量的。

Fisher 信息度量：

gᵢⱼ = E[∂ log p(x;θ)/∂θᵢ · ∂ log p(x;θ)/∂θⱼ]

简单说：这个度量告诉你，改变参数 θ 会让概率分布变化多少。

对 Prompt Engineering 的启示：

不同的 prompt 在"意义空间"中可能距离很远，即使它们字面上看起来相似。

# 字面距离近，语义距离远
"写一个函数" vs "实现一个函数"

# 字面距离远，语义距离近  
"创建用户账户" vs "注册新用户"

Claude 在语义空间里工作，字面相似不代表会产生相同的行为。

Geodesic Path（测地线）：最短路径不总是直线

在弯曲的信息空间里，两点之间的最短路径是测地线，不是欧式距离的直线。

工程类比：要到达目标回应，最有效的 prompt 路径往往是反直觉的。

# 直觉路径（低效）：
"给我一个完整的、全面的、详细的错误处理实现..."

# 测地线路径（高效）：  
"只处理这三种错误情况：连接超时、权限不足、数据不存在。
其他情况透传原始错误。"

越想"全面"，越容易偏离目标。约束是测地线上的路标。

KL Divergence（KL 散度）：量化 Prompt 偏差

KL(P||Q) 衡量用分布 Q 来近似分布 P 时的信息损失。

对话类比：当 Claude 的理解（Q）偏离你的意图（P），KL 散度变大。

减少散度的方法： 1. 提供具体例子（缩小 P 和 Q 的差距） 2. 指出错误并纠正（梯度下降） 3. 换一个表达框架（重新参数化）

信息瓶颈（Information Bottleneck）原理：

一个好的中间表示应该最大化"保留与任务相关的信息"，最小化"保留输入的总信息量"。

Prompt 设计的类比：好的 prompt 不是塞满信息，而是只保留对任务最相关的信息。多余信息不是中性的，它会压缩任务相关的信号。

实用原则：

当 Claude 的回答持续偏向你不想要的方向，不要只加更多描述——考虑彻底换一个 framing。你可能已经在一个局部最优的 prompt 空间里，需要跳出来重新参数化整个问题。