跳转至

Ran9E的笔记本

7 MARL with Factored Value Functions

PiXe1Ran9E/notebook

7 MARL with Factored Value Functions¶

博弈论概念¶

回报payoff, utility \(u=(u_1,u_2,\dots,u_n)\rightarrow\mathbb{R}\)
- \(u_1: A_1\times A_2\rightarrow\mathbb{R}\)
回报矩阵

共识：A和B同时被告知游戏规则
纯策略与混合策略

最佳策略博弈
- 给定\(a_{-i}\in A_1\times A_2\times\cdots\times A_{i-1}\times A_{i+1}\times\cdots\times A_n\)
- 如果\(\forall a_i'\in A_i,u_i(a_i,a_{-i})\geq u_i(a_i',a_{-i})\)，则\(a_i\)是针对\(a_{-i}\)的最佳策略
占优策略(dominant strategy)
- 给定\(\forall a_{-i},a_i\)都是最佳策略博弈，则为占优策略
纳什均衡/混合策略纳什均衡：联合策略为纳什均衡解，当且仅当对每个玩家，策略\(a_i\)都是最佳博弈

多智能体信用分配¶

MA-MDP模型假设：每个智能体都可以获取全局状态
Dec-POMDP：智能体无法获得全局状态，只能看到全局状态的投影
- 观测：\(o_i\in\Omega\)
- 观测函数：\(o_i\in\Omega\sim O(s,i)\)
- 智能体i的分布式策略：\(\pi_i(\tau_i):T\rightarrow A\)
  - 行为观测历史：\(\tau_i\in T=(\Omega\times A)^*\)
- 集中训练分布式执行(CTDE)
  - 训练过程可以获取全局状态
  - 测试过程只能看到局部观测
MARL挑战
- 可扩展性：维度诅咒
- 多智能体信用分配：每个智能体对整体博弈的贡献
- 样本利用率：需要大量的交互数据
- 受限的观测：受限传感器，无法获取全局信息
- 探索：指数级别的联合策略空间

MARL范例

线性值分解：即\(Q_{tot}(\tau,a)=\sum_iQ_i(\tau_i,a_i)\), VDN算法
- 满足IGM
- 混合网络无参数，Q直接相加
- 对每个智能体没有直接的独特的奖励分配
- 在神经网络梯度回传时完成隐式奖励分配
- 理论保证，参考Multi-Agent Fitted Q-Iteration框架

DOP算法：引入线性可分解的critic网络，即\(Q_{tot}^\pi(\tau,.)=\sum_ik_i(\tau)Q_i(\tau,.)+b(\tau)\)，其中\(\tau\)为联合历史数据
- 简单实用
- 支持离线MARL，并能减小方差
- 在策略单调提升的前提下收敛有理论保证
- 适合离散和连续行为空间

线性分解局限性：有限的表征能力，没有全局收敛保证
QMIX：引入单调混合网络函数，即\(\dfrac{\partial Q_{tot}}{\partial Q_i}\geq0\)(baseline)
- 引入超网络，使得混合网络的网络参数被限定为非负。即每个智能体至少对群体的贡献为正
QPLEX：Q-Learning with IGM Factorization

其他MARL方法¶

动态共享学习目标¶

多智能体强化学习需要更大的样本量，所以参数共享作为减少样本量的方法，对于多智能体强化学习非常重要。
在智能体学习中，智能体倾向于学习到均质行为策略，而实际上，不同的智能体在环境交互中往往需要异质性策略
因此动态目标学习可以使智能体根据其目标最大化个体差异

ROMA¶

相似角色的智能体分享相似的学习目标和分享相似的行为策略。
- 相似角色\(\leftrightarrow\)相似子任务\(\leftrightarrow\)相似行为策略
角色可以作为短期博弈轨迹的编码并嵌入到输入。
智能体以对应的角色作为条件进行策略学习。
智能体在不同的场景下动态更换其角色

价值分解局限性¶

不确定性
- 价值分解可以导致合作失调；
- 在分布式执行的过程中也会导致行为浪费；
因此可以引入智能体之间的交流

NDQ Nearly Decomposable Q-Value Learning¶

允许智能体间交流，但是需要最小化交流信道
智能体学习什么时候、向谁、交流什么内容

W-QMIX¶

QMIX问题
- QMIX算法的单调性约束是充分不必要条件，即有些场景的值函数是QMIX无法精确拟合的。例如一个智能体的行为取决于另一个同队智能体时，QMIX是没有考虑的，同时IGM原则也被违反了。
- \(\mathcal{J}^*_{Qmix}\)算子不是收缩映射，即QMIX算法找不到\(\mathcal{J}^*\)对应的不动点，而只能找到其最接近不动点的次优点，所以QMIX的优化结果可能不是唯一的。
- QMIX可能会低估某些联合动作的价值。这是QMIX自身缺陷导致的，与计算性能、探索机制、及网络参数没有关系
优化：增加权重函数 \(\pi_\omega Q=\arg\min\limits_{q\in Q^{mix}}\sum\limits_{a\in A}\omega(s,a)(Q(s,a)-y)^2\)
\(\omega(s,a)=1\)，即QMIX

评论