手电大家谈-手电筒爱好者之家

 找回密码
 注册成为会员,享受更多功能。

QQ登录

只需一步,快速开始

只需一步,快速开始

搜索
查看: 866|回复: 0

谷歌研制出 AI 编舞师:可根据音乐来 10 种 freestyle

[复制链接]

该用户从未签到

发表于 2021-9-21 21:07 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册成为会员,享受更多功能。

x
Transformer 又又接新活了 —— 这次谷歌用它搞了一个会根据音乐跳舞的 AI。
246540.png
谷歌研制出 AI 编舞师:可根据音乐来 10 种 freestyle,霹雳、爵士、芭蕾舞随便选


谷歌研制出 AI 编舞师:可根据音乐来 10 种 freestyle,霹雳、爵士、芭蕾舞随便选


而这个 AI 也凭借着对音乐和舞蹈之间的关联的深刻理解,打败了 3 个同类模型取得 SOTA,登上了 ICCV 2021。


谷歌研制出 AI 编舞师:可根据音乐来 10 种 freestyle,霹雳、爵士、芭蕾舞随便选


另外,除了代码开源,研究团队还随之一起公开了一个含有 10 种类型的 3D 舞蹈动作数据集。


谷歌研制出 AI 编舞师:可根据音乐来 10 种 freestyle,霹雳、爵士、芭蕾舞随便选


心动的,搞起来搞起来!


这个 freestyle 怎么来?
前面咱们不是说,这个 AI 用了 Transformer 吗?


但这里的 Transformer 不是普通的 Transformer,它是一个基于完全注意力机制(Full-Attention)的跨模态 Transformer,简称 FACT。


为什么要搞这么复杂?


因为研究人员发现,光用单纯的 Transformer 并不能让 AI 理解音乐和舞蹈之间的相关性。


所以,这个 FACT 是怎么做的呢?


总的来说,FACT 模型采用了独立的动作和音频 transformer。


首先输入 2 秒钟的 seed 动作序列和一段音频,对其进行编码。


图片


然后将 embedding(从语义空间到向量空间的映射)连接起来,送入跨模态 transformer 学习两种形态的对应关系,并生成 n 个后续动作序列。


这些序列再被用来进行模型的自监督训练。


其中 3 个 transformer 一起学习,采用的是不用预处理和特征提取,直接把原始数据扔进去得到最终结果的端到端的学习方式。


另外就是在自回归框架中进行模型测试,将预期运动作为下一代阶段的输入。


最终,该模型可以逐帧地生成一段(long-range)舞蹈动作。

回复 dsu_marcocopyright:copyright

使用道具 举报

本版积分规则

小黑屋|手机版|Archiver|论坛自带搜索|下载论坛app|手电大家谈-手电筒爱好者之家 ( 备案序号:鲁ICP备05002565号 )
以上言论纯属个人观点,与手电大家谈立场无关。
最佳浏览模式:1920*1080


GMT+8, 2024-11-20 22:29 , Processed in 0.122903 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表