TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio-Motion Embedding and Diffusion Interpolation

Haiyang Liu¹, Xingchao Yang², Tomoya Akiyama², Yuantian Huang², Qiaoge Li, Shigeru Kuriyama², Takafumi Taketomi²

¹The University of Tokyo, ²CyberAgent AI Lab