纳什均衡 · Nash Equilibrium · Claude Code 工程师手册

纳什均衡 · Nash Equilibrium

博弈论 · 用于多 Agent 协调协议设计

数学

核心概念

纳什均衡：在给定其他参与者策略的情况下，没有任何参与者能通过单方面改变策略来改善自身结果。多 Agent 系统中： - 每个 agent 都有自己的"最优策略" - 均衡 = 所有 agent 的策略互相一致、互相强化 - 非均衡 = 某个 agent 总想"偏离"→ 系统不稳定

关键直觉：不是让每个 agent "最优"，而是让系统的均衡点恰好在你想要的地方。

为什么多 Agent 系统会失衡

典型场景：囚徒困境

Writer agent 想通过审核 → 倾向于写"安全"内容。Reviewer agent 想找到问题 → 倾向于挑剔。结果：writer 越来越保守，reviewer 越来越严苛，最终输出质量反而下降。这是一个"军备竞赛"均衡，不是你想要的均衡。

系统设计	均衡类型	结果
Reviewer 只评分不解释	对抗均衡	Writer 猜测标准 → 质量随机
Reviewer 给出改进方向	合作均衡	Writer 有明确目标 → 质量上升
共享评分标准 rubric	协调均衡	双方对齐 → 系统最优

代码模式 — 协调均衡设计

agent-coordinator.ts 多 Agent 协调层

// 错误：各 agent 独立定义"成功"标准 → 对抗均衡
const writerPrompt = `写一篇高质量文章，要通过审核`
const reviewerPrompt = `严格审核文章，找出所有问题`
// 结果：writer 写防御性内容，reviewer 挑越来越细的毛病

// 正确：共享 rubric，建立协调均衡
const SHARED_RUBRIC = {
  clarity:     { weight: 0.3, desc: '逻辑清晰，论点有层次' },
  accuracy:    { weight: 0.3, desc: '事实准确，代码可运行' },
  actionable:  { weight: 0.2, desc: '读者可以立即采取行动' },
  conciseness: { weight: 0.2, desc: '没有多余的话' },
}

const writerPrompt = `
  写一篇满足以下标准的文章：
  ${JSON.stringify(SHARED_RUBRIC)}
  每个维度目标分：≥7/10
`

const reviewerPrompt = `
  按以下标准评分，给出每个维度的分数和具体改进建议：
  ${JSON.stringify(SHARED_RUBRIC)}
  目标：帮助 writer 达到每项 ≥7/10，不是找茬
`

// 现在两个 agent 的最优策略指向同一个目标

async function coordinatedGeneration(topic: string) {
  let draft = await writer.generate(topic, writerPrompt)

  for (let i = 0; i < 3; i++) {
    const review = await reviewer.evaluate(draft, reviewerPrompt)

    // 均衡检查：双方对评分达成共识？
    if (review.scores.every(s => s.score >= 7)) break

    // 非均衡：writer 根据反馈调整，向均衡点收敛
    draft = await writer.revise(draft, review.feedback)
  }

  return draft
}

⚠ 反模式 给 critic agent 设置"找到至少 5 个问题才算完成任务"。这会把系统推向对抗均衡——即使内容质量很高，critic 也会捏造问题来完成任务。永远不要用"问题数量"作为 critic 的成功指标。

✓ 最佳实践 用"共享 rubric + 收敛判断"代替"writer vs reviewer"对抗结构。让系统的自然均衡点与你的目标对齐，而不是靠强制约束压制对抗行为。

多 Agent 均衡设计检查清单

所有 agent 是否共享同一套评分标准？
某个 agent 的"成功"定义是否与其他 agent 的目标对齐？
是否存在 agent 通过"偷懒"或"过激"能单方面获益的情况？
系统是否有收敛条件？还是会无限循环？
能否用一句话说清楚"系统的纳什均衡状态是什么"？

拿走就能用 — 粘贴进你的 CLAUDE.md

CLAUDE.md 多 Agent 协调规则

## 多 Agent 系统设计规则（纳什均衡原则）

### 共享评分标准
- 所有参与同一任务的 agent 必须使用相同的 rubric
- rubric 在系统提示开头声明，所有 agent 都能看到

### 禁止对抗性指标
- 不允许用"找到问题数量"衡量 critic agent 的效果
- 不允许用"通过审核率"衡量 writer agent 的效果
- 只用"最终输出质量"作为整体系统指标

### 收敛条件
- 每个迭代循环必须有明确的终止条件（分数阈值或最大轮次）
- 若达到最大轮次仍未收敛，升级为人工介入，不要静默降级

10纳什均衡 · Nash Equilibrium

纳什均衡 · Nash Equilibrium

多 Agent 均衡设计检查清单