Connecting Multi-modal Contrastive Representations

Zehan Wang¹, Yang Zhao², Xize Chen¹, Haifeng Huang¹, Jiageng Liu¹, Li Tang¹, Linjun Li¹, Yongqi Wang¹, Aoxiong Yin¹, Ziang Zhang¹, Zhou Zhao^1,3,

¹Zhejiang University ²ByteDance ³Shanghai AI Laboratory

[paper][github]

Select a Task

Using image to retrieve audio

Volleyball Game

Piano

Fish

Man

Marching Band

Guitar

Shooting

Bell

Chorus

Duck

Swimming

Fireworks

Forklift

Band

Cutting

Horse and Motorbike

Two Mem

Concert Party

Singing

Cooking