Connecting Multi-modal Contrastive Representations

Zehan Wang¹, Yang Zhao², Xize Chen¹, Haifeng Huang¹, Jiageng Liu¹, Li Tang¹, Linjun Li¹, Yongqi Wang¹, Aoxiong Yin¹, Ziang Zhang¹, Zhou Zhao^1,3,

¹Zhejiang University ²ByteDance ³Shanghai AI Laboratory

[paper][github]

Select a Task

Using audio to retrieve image

Clock

Diving

Beach

Seagull

Shooting

Piano

Fire

Alarm

Bell

Singing Kid

Plane Engine

Fork Singing

Lecture

Marching Band

Racing Car

Excavator

Dogs

Children's Chorus

Church

Sheep and Goose