Search Results - RepositoryStats

12 results found Sort:

CLIP4Clip ArrowLuo

125

904

mit

13

An official implementation for "CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval"

clip msvd lsmdc didemo msrvtt search ranking retrieval multimodal activitynet multimodality retrieval-model multimodal-learning video-clip-retrieval video-text-retrieval

Created 2021-04-13

29 commits to master branch, last one 2 years ago

Awesome_Matching_Pretraining_Transfering Paranioar

48

416

mit

12

The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insigh...

tutorial awesome-list image-text-matching large-vision-models vision-and-language image-text-retrieval large-language-model video-text-retrieval cross-modal-retrieval large-language-models multimodal-pretraining video-text-recognition memory-efficient-tuning text-to-image-synthesis text-to-image-generation text-to-video-generation visual-semantic-embedding large-vision-language-models parameter-efficient-fine-tuning multimodal-large-language-models

Created 2020-12-22

130 commits to main branch, last one about a month ago

UniVL microsoft

54

343

mit

10

An official implementation for " UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation"

coin joint video msrvtt caption pretrain alignment youcookii video-text pretraining caption-task localization segmentation multimodality retrieval-task video-language video-text-retrieval multimodal-sentiment-analysis

Created 2020-10-30

20 commits to main branch, last one 2 years ago

Cap4Video whwu95

20

231

mit

7

【CVPR'2023 Highlight & TPAMI】Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

video-understanding cross-modal-learning video-text-retrieval video-language-understanding

Created 2023-01-07

32 commits to main branch, last one 2 months ago

ALPRO salesforce

17

187

bsd-3-clause

7

Align and Prompt: Video-and-Language Pre-training with Entity Prompts

video-language prompt-learning vision-and-language video-text-retrieval representation-learning video-question-answering

Created 2021-12-11

14 commits to main branch, last one 2 years ago

CondensedMovies m-bain

28

168

unknown

10

Story-Based Retrieval with Contextual Embeddings. Largest freely available movie video dataset. [ACCV'20]

dataset retrieval source-videos precomputed-features video-text-retrieval

Created 2020-04-21

34 commits to master branch, last one 2 years ago

X-CLIP xuguohai

15

147

mit

2

An official implementation for "X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval"

msvd lsmdc didemo msrvtt multimodal activitynet video-text-retrieval

Created 2022-09-19

4 commits to main branch, last one 2 years ago

Ant-Multi-Modal-Framework alipay

5

134

cc-by-4.0

4

Research Code for Multimodal-Cognition Team in Ant Group

video-editing multimodal-llm multimodal-learning image-text-retrieval video-text-retrieval

Created 2023-08-21

142 commits to main branch, last one 6 months ago

crossmodal-contrastive-learning amazon-science

11

59

apache-2.0

4

CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations, ICCV 2021

video transformers multi-modality computer-vision video-captioning contrastive-learning video-text-retrieval natural-language-processing

Created 2021-10-12

4 commits to main branch, last one 3 years ago

Cross-Modal-Adapter LeapLabTHU

2

55

apache-2.0

5

[arXiv] Cross-Modal Adapter for Text-Video Retrieval

clip adapter pytorch deep-learning machine-learning vision-and-language video-text-retrieval parameter-efficient-tuning parameter-efficient-learning

Created 2022-11-16

15 commits to main branch, last one 2 years ago

TESTA RenShuhuai-Andy

3

49

mit

3

[EMNLP 2023] TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding

video-qa video-understanding video-text-retrieval long-video-understanding

Created 2023-10-29

9 commits to main branch, last one about a year ago

1

35

other

1

[AAAI 2024] DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval.

prompt-tuning cross-modal-learning video-text-retrieval cross-modal-retrieval parameter-efficient-tuning video-language-understanding

Created 2024-02-14

28 commits to main branch, last one 3 months ago