0%

PMP Essay Note

本文提出了一种通过学习局部动作先验(PMP)的方法来为配备手部的角色生成与复杂的环境交互的动画。核心创新点在于两个,一个是提出在强化学习任务中通过将身体划分为不同的部位来分别训练风格分类器,实现整体动作的泛用性增加,能在更少的训练数据中得到更泛化的结果;一个是提出对一些重要部位(如手部)可以预先进行交互训练,为交互提供内容。

过往工作:AMP

AMP是通过强化学习训练完成动作生成的方法。其强化学习对应的奖励函数包括两个部分,其一是任务奖励,作为完成给定任务的奖励,其二是风格奖励,用于限制生成动作的风格符合训练数据(通过训练一个判别器D判断是否是符合原数据集的动作来决定给予多少奖励)。这样的生成受限于数据,无法实现生成比较自然的而超出数据之外的运动,又因为现实中的不同动作数量众多,很难通过数据去全部覆盖,因此难以解决。

PMP

PMP通过将现有的动作捕捉数据,对于每个部位先进行训练,获取相关部位的先验知识后,使其在训练阶段探索和动态选择最适合情景的整体动作,或组合不同部位的动作。

具体的想法是将整个身体划分为k个不同的部分,对每个部分分别应用类似AMP的判别器训练,使得每个部分分别贴近训练数据。最后整体的强化学习风格奖励被设置为每个部位的风格奖励的乘积。

交互Gym

针对手部的灵活动作,本文首先设计了一个交互Gym用于预训练手部的动作,以使手部能获得先验。该环境中,每次设置一个手部模型和一个代表性的目标物体,如长圆柱体,强制手部通过均匀接触来抓握,并应用了一个带有手动设计奖励的强化学习算法来训练自然且物理稳定的抓握。在训练过程中,物体被施加以任意力或扭矩来促进训练稳定的抓握。

手部交互状态表示

上述手部交互中,一个状态 sis^i 被定义如下:

si={qh,q˙h,pe,pr,ce,<dhdc>}s^i=\left\{q_h,\dot q_h, \overline p_e, \overline p_r, c_e, <d_h\cdot d_c>\right\}

前三个代表手的状态,分别代表手部关节的位置、速度和在手腕局部坐标系中指向四指末端的坐标。目标杆子被表示第四个值,为其两端的坐标总计六个维度,最后两项感知交互状态,cec_e 代表各个指尖的0/1接触标记,最后一个值代表每个构成手部的刚体之间,从手指指向手掌内部的向量 dhd_h 与生成的接触力方向 dcd_c 之间的余弦相似度。

动作生成

最终,上述的手部动作得到单独预训练的分类器和其他部位的风格分类器一同进行计算,再将交互奖励嵌入奖励函数,使得尽量贴近交互目标成为一个训练目的。

混合技术

当上述分割较多时,由于最后得到奖励函数是所有量之间的乘积形式,如果其中某一个不能模仿对应风格(使得其部分的奖励函数=0),会使得整体奖励为0,拖慢训练。因此本文选择通过每个部位都各自独立地有0.1的概率不参与乘积的方式进行混合(会在分割数大于2时使用),以此保证了训练的有效。

局限性

局限性。当运动捕捉数据有限或需要特定部分的交互先验时,PMP提供了一个很好的选择。此外,提出的交互先验减少了在多个下游任务中针对抓握相关奖励项进行重复策略优化的工作量。然而,提出的方法仍然没有完全减轻发明一种有效的任务奖励函数来引导代理程序在具有挑战性的场景中正确行为的所有努力。作为未来的工作,PMP可以包括其他演示特征,例如交互场景的视觉输入,从而使代理程序能够自动探索将局部技能与相对简单的任务奖励项相结合的最佳组合。此外,可以在后续的工作中解决自动探索最佳部分分段组合的问题。