数学10 分钟阅读1 天内
10纳什均衡 · Nash Equilibrium
博弈论 · 用于多 Agent 协调协议设计
10
纳什均衡 · Nash Equilibrium
博弈论 · 用于多 Agent 协调协议设计
核心概念
纳什均衡:在给定其他参与者策略的情况下,
没有任何参与者能通过单方面改变策略来改善自身结果。
多 Agent 系统中:
- 每个 agent 都有自己的"最优策略"
- 均衡 = 所有 agent 的策略互相一致、互相强化
- 非均衡 = 某个 agent 总想"偏离"→ 系统不稳定
关键直觉:不是让每个 agent "最优",而是让系统的均衡点恰好在你想要的地方。
为什么多 Agent 系统会失衡
典型场景:囚徒困境
Writer agent 想通过审核 → 倾向于写"安全"内容。Reviewer agent 想找到问题 → 倾向于挑剔。结果:writer 越来越保守,reviewer 越来越严苛,最终输出质量反而下降。这是一个"军备竞赛"均衡,不是你想要的均衡。
| 系统设计 | 均衡类型 | 结果 |
|---|---|---|
| Reviewer 只评分不解释 | 对抗均衡 | Writer 猜测标准 → 质量随机 |
| Reviewer 给出改进方向 | 合作均衡 | Writer 有明确目标 → 质量上升 |
| 共享评分标准 rubric | 协调均衡 | 双方对齐 → 系统最优 |
代码模式 — 协调均衡设计
agent-coordinator.ts
多 Agent 协调层
// 错误:各 agent 独立定义"成功"标准 → 对抗均衡 const writerPrompt = `写一篇高质量文章,要通过审核` const reviewerPrompt = `严格审核文章,找出所有问题` // 结果:writer 写防御性内容,reviewer 挑越来越细的毛病 // 正确:共享 rubric,建立协调均衡 const SHARED_RUBRIC = { clarity: { weight: 0.3, desc: '逻辑清晰,论点有层次' }, accuracy: { weight: 0.3, desc: '事实准确,代码可运行' }, actionable: { weight: 0.2, desc: '读者可以立即采取行动' }, conciseness: { weight: 0.2, desc: '没有多余的话' }, } const writerPrompt = ` 写一篇满足以下标准的文章: ${JSON.stringify(SHARED_RUBRIC)} 每个维度目标分:≥7/10 ` const reviewerPrompt = ` 按以下标准评分,给出每个维度的分数和具体改进建议: ${JSON.stringify(SHARED_RUBRIC)} 目标:帮助 writer 达到每项 ≥7/10,不是找茬 ` // 现在两个 agent 的最优策略指向同一个目标 async function coordinatedGeneration(topic: string) { let draft = await writer.generate(topic, writerPrompt) for (let i = 0; i < 3; i++) { const review = await reviewer.evaluate(draft, reviewerPrompt) // 均衡检查:双方对评分达成共识? if (review.scores.every(s => s.score >= 7)) break // 非均衡:writer 根据反馈调整,向均衡点收敛 draft = await writer.revise(draft, review.feedback) } return draft }
⚠ 反模式
给 critic agent 设置"找到至少 5 个问题才算完成任务"。这会把系统推向对抗均衡——即使内容质量很高,critic 也会捏造问题来完成任务。永远不要用"问题数量"作为 critic 的成功指标。
✓ 最佳实践
用"共享 rubric + 收敛判断"代替"writer vs reviewer"对抗结构。让系统的自然均衡点与你的目标对齐,而不是靠强制约束压制对抗行为。
多 Agent 均衡设计检查清单
- 所有 agent 是否共享同一套评分标准?
- 某个 agent 的"成功"定义是否与其他 agent 的目标对齐?
- 是否存在 agent 通过"偷懒"或"过激"能单方面获益的情况?
- 系统是否有收敛条件?还是会无限循环?
- 能否用一句话说清楚"系统的纳什均衡状态是什么"?
拿走就能用 — 粘贴进你的 CLAUDE.md
CLAUDE.md
多 Agent 协调规则
## 多 Agent 系统设计规则(纳什均衡原则)
### 共享评分标准
- 所有参与同一任务的 agent 必须使用相同的 rubric
- rubric 在系统提示开头声明,所有 agent 都能看到
### 禁止对抗性指标
- 不允许用"找到问题数量"衡量 critic agent 的效果
- 不允许用"通过审核率"衡量 writer agent 的效果
- 只用"最终输出质量"作为整体系统指标
### 收敛条件
- 每个迭代循环必须有明确的终止条件(分数阈值或最大轮次)
- 若达到最大轮次仍未收敛,升级为人工介入,不要静默降级