Connecting Multi-modal Contrastive Representations

Zehan Wang¹, Yang Zhao², Xize Chen¹, Haifeng Huang¹, Jiageng Liu¹, Li Tang¹, Linjun Li¹, Yongqi Wang¹, Aoxiong Yin¹, Ziang Zhang¹, Zhou Zhao^1,3,

¹Zhejiang University ²ByteDance ³Shanghai AI Laboratory

[paper][github]

Select a Task

Select an Audio

(click audio)

Fireworks

Train

Female Speaker

Truck

Male Speaker

Cat

Football Game

Ducks

Recorder

See the Results