Search Results - RepositoryStats

1 result found Sort:

272

mit

[NIPS2023] Code and Model for VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

dataset audio-language vision-language cross-modality-pretraining vision-audio-subtitle-text multimodal-foundation-model

Created 2023-05-29

13 commits to master branch, last one about a year ago