Search Results - RepositoryStats

2

53

unknown

5

[CVPR2021] SUTD-TrafficQA: A Question Answering Benchmark and an Efficient Network for Video Reasoning over Traffic Events

vqa cvpr paper dataset cvpr2021 video-qa multimodal annotations vqa-dataset traffic-events video-reasoning multimodal-deep-learning

Created 2021-03-27

39 commits to master branch, last one 6 months ago

3

49

mit

3

[EMNLP 2023] TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding

video-qa video-understanding video-text-retrieval long-video-understanding

Created 2023-10-29

9 commits to main branch, last one about a year ago

3

41

mit

2

[ICLR2024] Codes and Models for COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

video-qa video-retrieval video-captioning video-language-pretrainng vision-language-pretraining

Created 2023-05-24

9 commits to master branch, last one 2 months ago