Meta与UIUC联手打造会"认识你"的动作生成AI

这项由伊利诺伊大学厄巴纳-香槟分校（UIUC）与Meta现实实验室（Meta Reality Labs）、布朗大学联合开展的研究，以预印本形式发布于2026年4月28日，论文编号为arXiv:2604.25164，有兴趣深入了解的读者可以通过该编号查询完整论文。

**体型不同，动作也该不同**

假设你正在看一段动作捕捉视频，屏幕上出现了一个"标准人"在做慢跑动作——步伐均匀、手臂摆动幅度标准、节奏稳定。但现实生活中，如果是一位身材高挑的运动员在慢跑，他的步幅会大得多；如果换成一位体型偏胖的中年人，他的躯干前倾角度、手臂外展方式和落脚节奏都会截然不同。这种差异不是风格问题，而是身体结构本身决定的。

然而，当前绝大多数"文字生成动作"的AI系统，都假装这个差异不存在。它们只有一套"平均人体"的骨架模板，无论你输入的是"一个肌肉发达的男性在跑步"还是"一个年迈的老太太在走路"，生成的动作骨架本质上是一样的——身材差异顶多在后期套皮时才处理。这就好比所有演员不管高矮胖瘦，都只能穿同一套标准码的戏服，然后用胶带强行贴合，当然会显得别扭。

这项研究提出了一个叫做IAM（Identity-Aware Motion，身份感知动作）的框架，它的核心主张很直接：一个人是如何运动的，和这个人的身体长什么样，是密不可分的。研究团队要做的，就是让AI在生成动作的同时，也生成匹配的身体形态，让两者从一开始就共同生长、相互影响，而不是先生成动作再去"硬塞"进某个身材里。

**一、现有的AI动作生成，到底出了什么问题**

要理解这项研究在解决什么问题，先得了解现有技术的工作方式。目前主流的"文字转动作"AI，接收一段文字描述（比如"一个人向前跳起并在空中旋转"），然后输出一段动作序列——这个序列是用骨骼关键点的位移和旋转来表示的，通常是二百多个数字构成的向量，逐帧记录全身的姿态。

这些AI的能力确实不弱，有的用扩散模型（一种从噪声中逐步"雕刻"出动作的方法），有的用向量量化（把动作拆解成类似文字词汇的离散单元），还有的用类似ChatGPT的自回归方式一帧帧预测动作。但无论哪种方式，骨骼始终是固定的"标准身材"，身体尺寸从不变化。

这带来了一个深层问题：当你把这些"标准动作"套用到一个真实角色的身体上时，就需要做"动作重定向"——把动作从标准骨骼转移到目标骨骼。这个过程就像把一套为成年人设计的舞蹈动作强行让一个小学生来跳，虽然步骤相同，但身体比例不同导致许多细节完全走样。腿长的人做相同"抬腿"动作时，膝盖轨迹完全不同；手臂短的人做"伸展"动作时，看起来也会差很多。

研究团队指出，更根本的问题在于：现有方法把"身份"当成了一个外观属性，而不是影响动作本质的结构性因素。就像两位厨师做同一道菜，一位手大力强，一位手小精细，他们切菜的方式、搅拌的力度、翻锅的频率都会不同——这不是风格偏好，而是身体结构的自然映射。现有AI缺失的，正是这种"身体结构如何塑造动作模式"的内在联结。

**二、IAM的核心思路：让身体和动作一起"长出来"**

IAM框架的核心思路，可以用一个厨房比喻来贯穿理解。标准的AI动作生成，就像一个餐厅只有一套固定食谱，所有厨师（无论身材高矮、力气大小）都用完全一样的步骤做菜，然后再根据厨师的体型调整一下摆盘。IAM则完全不同——它让食谱从一开始就根据具体厨师的体型量身定制，每一道工序都天然适配这位厨师的身体特点。

具体来说，IAM同时生成两样东西：一是动作序列（每一帧里全身各关节的姿态），二是身体形态参数（描述这个人体型的10个数字，学术上叫做SMPL/SMPL-X的β参数）。这10个数字能编码一个人的高矮胖瘦、四肢比例、躯干形状等核心体型信息。把这两样东西放在同一个生成过程里联合优化，就强迫AI学会"这种身材的人，动作应该是这样的"这个内在规律。

为了告诉AI"这次要生成什么样的人"，研究团队设计了一个多模态身份输入系统。所谓多模态，就是可以用多种方式描述同一个人。第一种方式是文字描述，比如"一位高挑、体型匀称的年轻女性"或者"一个体型偏胖的中年男性，肩膀宽阔"。第二种方式是图片，直接给一张这个人的照片，让AI从中提取身体比例、体型轮廓等视觉信息。这两种方式各有优势：文字擅长描述高层次的语义属性（高、胖、老等），图片则能提供文字难以精确表达的细节，比如腿与躯干的比例、整体体积感等。

这种设计让IAM比之前的同类研究（比如Shape My Moves）更加灵活。Shape My Moves需要用户输入精确的数字测量值（身高183厘米、胸围95厘米等），这对普通用户来说既不方便又不直观。IAM则允许用自然语言或一张照片来描述身份，更贴近真实使用场景。

**三、技术内部的"食谱"是如何运转的**

理解IAM的内部工作方式，可以把整个系统想成一个精密的厨房流水线，有专门的食材处理区、烹饪区和出餐区，各司其职又紧密协作。

文字信息的处理由一个"冻结"的文字编码器负责——这里的"冻结"意思是这个编码器的参数在训练过程中不改变，它已经在大量文本数据上预训练好了，能把任何文字转化成768维的语义向量，再通过一个可学习的投影层压缩到512维。图片信息则由一个同样冻结的CLIP图像编码器处理，提取出包含年龄感、体型轮廓、肢体比例等信息的512维特征向量，同样投影到统一的512维空间。

把这两路信息合并的方式叫做"晚期融合"——就像做饭时，先分别把蔬菜和肉类处理好，最后在锅里合在一起炒，而不是一开始就混在一起。文字描述会生成一串向量（序列长度加1个视觉向量），拼接成一个统一的条件序列输入给生成网络。为了让系统在"有身份输入"和"没有身份输入"两种情况下都能工作，训练时会有10%的概率把所有条件输入都替换成一个可学习的空白向量，这样AI就学会了在没有具体身份信息时也能合理生成。

生成动作和体型的核心网络有两种口味。第一种基于扩散模型（Diffusion-based），它的做法是把体型参数（10个数字）直接拼接到每一帧的动作特征（272个数字）后面，形成282维的联合状态向量，然后用一个统一的降噪网络同时从噪声中"雕刻"出动作和体型。训练时用一个统一的均方误差损失，迫使网络同时把动作和体型都预测准确。第二种基于向量量化（VQ-based，以MoMask框架为基础），动作部分依然离散成词汇式的标记（token），但在Transformer输出层新增了一个专门预测体型参数的回归头，同时训练分类损失（预测正确的动作标记）和回归损失（预测正确的体型数字），两部分损失的权重比是10:1。

**四、数据从哪里来：两个截然不同的训练场**

任何AI系统的能力，都很大程度上取决于它的训练数据。IAM的研究团队在这方面下了相当大的功夫，构建了两套互补的数据集。

第一套是基于已有的HumanML3D基准数据集的改造版本。这个数据集原本包含14616段动作序列和44970条文字描述，是动作生成领域的标准测试场。研究团队从AMASS动作捕捉数据库中找到了每段动作对应的真实体型参数β，覆盖449个独立个体，其中263位男性、186位女性，身材分布包括116位偏瘦、269位中等、64位偏胖。

为了给这些体型数字配上自然语言描述，研究团队用了Body Talk框架——这是一个能把数字体型参数转换成解剖学关键词的工具，类似于把"β1=0.8, β2=-0.3..."这样的数字翻译成"宽肩、细腰、腿较长"这样的词汇。然后再用Llama 3.2大语言模型把这些关键词写成流畅的自然语言描述，比如"这是一位肩膀宽阔、腰部纤细、四肢修长的男性"。由于原始视频数据不可获取，视觉参考图片则通过将体型参数直接渲染成SMPL人体网格的正面图来替代，提供一个标准化的几何参考。

第二套是研究团队自己构建的大规模野外数据集，命名为IdentityMotion，包含超过20万段动作序列。这批数据来自真实世界的视频，用GVHMR系统自动从视频中重建出动作序列和体型参数作为监督信号，身份描述则用Gemini 2.5 Pro多模态大模型自动标注——AI看着视频，描述出这个人的外貌、体型、年龄段等信息，同时生成对应动作的文字描述，再用Llama 3.2专门把动作描述中所有涉及身份的信息清除（用"一个人"替代"这位肌肉发达的男运动员"），确保动作描述和身份描述是真正解耦的。IdentityMotion的体型分布更加多样：52%偏瘦、41%中等、7%偏胖；64%女性、36%男性；75%年轻成人、20%中年、5%老年人。

**五、成绩单：数字说明了什么**

评估一个动作生成系统的好坏，需要从多个角度打分。研究团队用了业界通用的几个指标，类比考试成绩来理解最为直接。

FID（Fréchet Inception Distance，弗雷歇特初始距离）衡量的是生成动作和真实动作在整体分布上有多相似，数值越低越好，可以理解为"整体像不像真人动作"。R-Precision衡量的是生成的动作和对应文字描述的匹配程度，数值越高越好，相当于"动作是否按照文字要求来的"。β-Dist则是这项研究特有的指标，衡量生成的体型参数和目标体型之间的L2距离，数值越小说明生成的身材越接近描述的身材，可以理解为"身材是否画对了"。

在HumanML3D数据集上，基于扩散模型、同时使用文字和图片双重条件输入的IAM变体，取得了FID 7.371、β-Dist 0.647的成绩。与之对比，只使用中性动作文字（不包含身份信息）的基础扩散模型FID为13.207，根本无法生成多样化身材（β-Dist无法计算）。加入身份感知文字描述后，FID降到7.395、β-Dist为1.190；再叠加图片条件，FID和β-Dist都进一步改善，说明图片提供的几何细节确实对体型准确性有额外贡献。

在身体测量误差方面，与Shape My Moves的直接对比很能说明问题：Shape My Moves在身高预测上误差为5.8毫米，IAM的双条件变体同样达到5.8毫米，基本持平；在胸围误差上IAM为8.6毫米（Shape My Moves为6.9毫米），腰围误差IAM为12.6毫米（Shape My Moves为10.6毫米），臀围误差IAM为6.8毫米（Shape My Moves为6.0毫米）。这些数字表明，IAM在不需要精确数字输入的情况下，达到了与依赖精确测量值的Shape My Moves相当的准确度，而且同时生成的动作质量更高。

基于向量量化的变体（VQ-based）在体型生成上也有一定能力（β-Dist 1.359），但整体动作质量（FID 11.34）明显不如扩散模型版本，说明在联合建模动作和身材这个任务上，扩散模型的连续空间表达能力更有优势。

**六、零样本测试：遇到没见过的人，还能行吗**

真正考验一个AI系统的，不是它在训练数据上表现如何，而是遇到完全没见过的人时还能不能正常工作。研究团队专门在IdentityMotion数据集上做了严格的零样本测试：测试集中的所有人物，都与训练集完全不重叠。

结果显示，双条件输入的扩散模型（文字+图片）在这个零样本设置下取得了FID 23.174、β-Dist 1.279的成绩，明显优于单一条件输入的变体（只用文字：FID 28.667，β-Dist 1.452；只用图片：FID 31.726，β-Dist 1.392）。这说明两种模态的信息是互补的，缺少任何一方都会影响性能。

研究团队还特意指出一个有趣的规律：在较小的HumanML3D数据集上，单一模态（只用文字）基本就够用了，因为那个数据集里的体型多样性有限；但在大规模的IdentityMotion上，必须两种模态结合才能最好地处理真实世界的体型多样性。这就像识别人脸，如果数据库里只有100个人，对着名字找可能就够了；但数据库里有10万人时，额外的照片参考就变得不可缺少。

在形状重建精度上，IdentityMotion测试集的误差（身高53.5毫米、胸围67.9毫米）比HumanML3D测试集高出不少，这在意料之中——真实世界视频中的体型更加极端多样，光靠文字和一张图就要估计准确确实更难。不过研究团队指出，这个误差范围与专门做体型估计的顶级系统Shapy在相似条件下的表现相当，而IAM还额外完成了动作生成的任务。

**七、眼见为实：视觉比较说明了更多**

数字有时候不如直接看图来得直观。研究团队提供了大量的可视化结果，用彩色的人体网格展示体型偏差——颜色越深红，说明生成的体型与目标体型相差越大；颜色越浅，说明越接近。

在HumanML3D的测试例子中，面对同一组输入（"一个人用右手用力投掷某物"、"一位体型匀称的精瘦男性"），IAM的扩散模型版本生成的人体网格整体颜色明显更接近目标色，身高比例、肩宽、腰围都与描述吻合；而Shape My Moves的结果则在某些部位出现了较明显的红色，说明局部体型偏差较大。IAM的VQ版本在某些例子中也有红色区域，说明体型控制还不如扩散版本精确。

在身份可控生成的演示中，研究团队将5种不同的身份描述（"体型纤细的年轻女性"、"肌肉发达的成年男性"、"纤细的年轻男性"、"身材较重的老年女性"、"体型偏大偏重的老年男性"）和3种不同的动作描述（"愉快地跳舞，摇摆臀部并挥动手臂"、"犹豫地走过一座摇晃的绳桥"、"双手抱着砖块向前走"）进行自由组合，生成了15段不同的动作视频。这15段视频都遵循了动作指令，同时各自的体型也与身份描述一致，说明IAM确实学到了将身份和动作解耦控制的能力。

**八、用户调研：真实的人怎么看**

定量指标之外，研究团队还做了一次用户感知研究，让25位参与者对IAM和Shape My Moves进行盲测比较，每人评估10对视频，每对从30个随机抽取的测试案例中选取。参与者从三个维度打分：动作合理性（动作与文字描述是否吻合）、体型合理性（人物体型与描述是否匹配）、动作与体型的整体真实感（两者结合是否让人觉得"这就是这个身材的人该有的动作"）。

结果：在动作合理性上，83.2%的评估者认为IAM更好，7.2%认为Shape My Moves更好，9.6%无法判断；在体型合理性上，77.6%支持IAM，16.8%支持Shape My Moves，5.6%无法判断；在动作与体型的整体真实感上，88%支持IAM，5.2%支持Shape My Moves，6.8%无法判断。三项指标的统计显著性p值均低于0.05，说明这些差异不是偶然的。其中"整体真实感"一项IAM的领先幅度最大，正好对应IAM最核心的设计目标——让动作和体型在内在层面就相互融合，而不是外在拼凑。

**九、这个框架的局限性和未来空间**

研究团队没有回避这项工作存在的问题。当参考图片中的人物穿着宽松衣物或者有遮挡时，视觉编码器提取的身体信息会有偏差，导致生成的体型不准确。对于训练分布之外的极端体型（比如异常高大或非常特殊的身材比例），误差会明显增大，说明模型对训练数据的分布依赖还比较强。未来可以考虑引入更鲁棒的身体识别技术，或者加入几何约束来增强对极端情况的处理能力。

此外，这项研究聚焦于静态体型参数的生成，但真实世界中体型本身也会随时间、运动状态发生变化（比如运动时肌肉的动态变形），这部分尚未涉及。动作生成的物理合理性（比如是否满足重力约束、接触约束等）也需要更多工作来保证。

归根结底，这项研究做的事情其实很直白：让AI在生成虚拟人物动作的时候，真正"看见"这个人的身材是什么样的，而不是对所有人都用同一套模板。当一个体型偏大的虚拟角色在跑步时，它的步态本就应该和纤细运动员不同；当一个老年角色在弯腰时，它的动作弧度本就应该反映年龄带来的身体限制。这不是锦上添花的细节打磨，而是让虚拟角色真正有"人味"的基础。

对于游戏开发者、虚拟偶像创作者、影视动画制作团队，或者任何需要创建个性化虚拟角色的人来说，这意味着未来描述一个角色的长相和体型，AI就能自动生成那个角色"该有的动作"，而不是再去做费力的手动调整。对于更宏观的具身AI和机器人研究，这也提供了一个新的思路：智能体的运动策略，也许从设计之初就该和它的物理身体形态紧密绑定在一起。

那么，下一个有趣的问题是：如果把这个思路进一步延伸，能不能让AI根据一个人的实时体型变化（比如增肌、减重的过程）动态调整它预测的动作风格？这个方向，或许值得期待。

Q&A

Q1：IAM框架和普通的文字转动作AI有什么根本区别？

A：普通的文字转动作AI只用一套固定的"标准体型"骨架生成动作，体型差异要靠后期调整来弥补。IAM则在生成动作的同时同步生成身体形态参数，两者从一开始就共同优化，确保动作天然适配对应的身材比例，避免了"把成人舞蹈强塞给小孩跳"式的不协调问题。

Q2：IAM需要用户输入精确的体重身高数据吗？

A：不需要。IAM支持用自然语言描述（如"一位高挑的年轻女性"）或者一张照片来告知身份信息，不必输入厘米、公斤这样的精确数字。这是IAM相比Shape My Moves的重要优势——后者必须依赖精确测量值，对普通用户不够友好。

Q3：IAM在完全没见过的人物上还能正常工作吗？

A：研究团队在IdentityMotion数据集上做了严格的零样本测试，测试人物与训练集完全不重叠。结果显示，同时使用文字和图片双重条件的版本取得了最好成绩，β-Dist为1.279，说明IAM确实学到了将身份描述映射到体型空间的泛化能力，而不只是记住了训练数据里的特定人物。