谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle

童话的味道 · 发表于 2021-9-21 21:07

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

x

Transformer 又又接新活了 —— 这次谷歌用它搞了一个会根据音乐跳舞的 AI。

谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle，霹雳、爵士、芭蕾舞随便选

谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle，霹雳、爵士、芭蕾舞随便选

而这个 AI 也凭借着对音乐和舞蹈之间的关联的深刻理解，打败了 3 个同类模型取得 SOTA，登上了 ICCV 2021。

谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle，霹雳、爵士、芭蕾舞随便选

另外，除了代码开源，研究团队还随之一起公开了一个含有 10 种类型的 3D 舞蹈动作数据集。

谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle，霹雳、爵士、芭蕾舞随便选

心动的，搞起来搞起来！

这个 freestyle 怎么来？
前面咱们不是说，这个 AI 用了 Transformer 吗？

但这里的 Transformer 不是普通的 Transformer，它是一个基于完全注意力机制（Full-Attention）的跨模态 Transformer，简称 FACT。

为什么要搞这么复杂？

因为研究人员发现，光用单纯的 Transformer 并不能让 AI 理解音乐和舞蹈之间的相关性。

所以，这个 FACT 是怎么做的呢？

总的来说，FACT 模型采用了独立的动作和音频 transformer。

首先输入 2 秒钟的 seed 动作序列和一段音频，对其进行编码。

图片

然后将 embedding（从语义空间到向量空间的映射）连接起来，送入跨模态 transformer 学习两种形态的对应关系，并生成 n 个后续动作序列。

这些序列再被用来进行模型的自监督训练。

其中 3 个 transformer 一起学习，采用的是不用预处理和特征提取，直接把原始数据扔进去得到最终结果的端到端的学习方式。

另外就是在自回归框架中进行模型测试，将预期运动作为下一代阶段的输入。

最终，该模型可以逐帧地生成一段（long-range）舞蹈动作。

		自动登录	找回密码
密码			注册成为会员，享受更多功能。

谷歌研制出 AI 编舞师：可根据音乐来 10 种 freestyle

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块