📐 思维模型手册/纳什均衡 · Nash Equilibrium
数学10 分钟阅读1 天内

10纳什均衡 · Nash Equilibrium

博弈论 · 用于多 Agent 协调协议设计
#multi-agent#coordination#architecture𝕏 分享
10

纳什均衡 · Nash Equilibrium

博弈论 · 用于多 Agent 协调协议设计
数学
核心概念
纳什均衡:在给定其他参与者策略的情况下, 没有任何参与者能通过单方面改变策略来改善自身结果。 多 Agent 系统中: - 每个 agent 都有自己的"最优策略" - 均衡 = 所有 agent 的策略互相一致、互相强化 - 非均衡 = 某个 agent 总想"偏离"→ 系统不稳定
关键直觉:不是让每个 agent "最优",而是让系统的均衡点恰好在你想要的地方。
为什么多 Agent 系统会失衡
典型场景:囚徒困境

Writer agent 想通过审核 → 倾向于写"安全"内容。Reviewer agent 想找到问题 → 倾向于挑剔。结果:writer 越来越保守,reviewer 越来越严苛,最终输出质量反而下降。这是一个"军备竞赛"均衡,不是你想要的均衡。

系统设计均衡类型结果
Reviewer 只评分不解释 对抗均衡 Writer 猜测标准 → 质量随机
Reviewer 给出改进方向 合作均衡 Writer 有明确目标 → 质量上升
共享评分标准 rubric 协调均衡 双方对齐 → 系统最优
代码模式 — 协调均衡设计
agent-coordinator.ts 多 Agent 协调层
// 错误:各 agent 独立定义"成功"标准 → 对抗均衡
const writerPrompt = `写一篇高质量文章,要通过审核`
const reviewerPrompt = `严格审核文章,找出所有问题`
// 结果:writer 写防御性内容,reviewer 挑越来越细的毛病

// 正确:共享 rubric,建立协调均衡
const SHARED_RUBRIC = {
  clarity:     { weight: 0.3, desc: '逻辑清晰,论点有层次' },
  accuracy:    { weight: 0.3, desc: '事实准确,代码可运行' },
  actionable:  { weight: 0.2, desc: '读者可以立即采取行动' },
  conciseness: { weight: 0.2, desc: '没有多余的话' },
}

const writerPrompt = `
  写一篇满足以下标准的文章:
  ${JSON.stringify(SHARED_RUBRIC)}
  每个维度目标分:≥7/10
`

const reviewerPrompt = `
  按以下标准评分,给出每个维度的分数和具体改进建议:
  ${JSON.stringify(SHARED_RUBRIC)}
  目标:帮助 writer 达到每项 ≥7/10,不是找茬
`

// 现在两个 agent 的最优策略指向同一个目标

async function coordinatedGeneration(topic: string) {
  let draft = await writer.generate(topic, writerPrompt)

  for (let i = 0; i < 3; i++) {
    const review = await reviewer.evaluate(draft, reviewerPrompt)

    // 均衡检查:双方对评分达成共识?
    if (review.scores.every(s => s.score >= 7)) break

    // 非均衡:writer 根据反馈调整,向均衡点收敛
    draft = await writer.revise(draft, review.feedback)
  }

  return draft
}
⚠ 反模式 给 critic agent 设置"找到至少 5 个问题才算完成任务"。这会把系统推向对抗均衡——即使内容质量很高,critic 也会捏造问题来完成任务。永远不要用"问题数量"作为 critic 的成功指标。
✓ 最佳实践 用"共享 rubric + 收敛判断"代替"writer vs reviewer"对抗结构。让系统的自然均衡点与你的目标对齐,而不是靠强制约束压制对抗行为。

多 Agent 均衡设计检查清单

  • 所有 agent 是否共享同一套评分标准?
  • 某个 agent 的"成功"定义是否与其他 agent 的目标对齐?
  • 是否存在 agent 通过"偷懒"或"过激"能单方面获益的情况?
  • 系统是否有收敛条件?还是会无限循环?
  • 能否用一句话说清楚"系统的纳什均衡状态是什么"?
拿走就能用 — 粘贴进你的 CLAUDE.md
CLAUDE.md 多 Agent 协调规则
## 多 Agent 系统设计规则(纳什均衡原则)

### 共享评分标准
- 所有参与同一任务的 agent 必须使用相同的 rubric
- rubric 在系统提示开头声明,所有 agent 都能看到

### 禁止对抗性指标
- 不允许用"找到问题数量"衡量 critic agent 的效果
- 不允许用"通过审核率"衡量 writer agent 的效果
- 只用"最终输出质量"作为整体系统指标

### 收敛条件
- 每个迭代循环必须有明确的终止条件(分数阈值或最大轮次)
- 若达到最大轮次仍未收敛,升级为人工介入,不要静默降级
← 上一篇贝叶斯更新 · Bayesian Update下一篇 →李雅普诺夫稳定性 · Lyapunov Stability