Connecting Multi-modal Contrastive Representations

Zehan Wang¹, Yang Zhao², Xize Chen¹, Haifeng Huang¹, Jiageng Liu¹, Li Tang¹, Linjun Li¹, Yongqi Wang¹, Aoxiong Yin¹, Ziang Zhang¹, Zhou Zhao^1,3,

¹Zhejiang University ²ByteDance ³Shanghai AI Laboratory

[paper][github]

Select a Task

Select an Audio

(click audio)

Bell

Sewing Machine

Racing Car

Cartoon Truck

Tractor

Air Blower

Cello

Dog

Scratch

Cat

Bird

Popcorn

Saxophone

Chorus

Explosion

Cello

Puppy

Bird

Cartoon Sheep

Bird

Electronic Organ

See the Results