Search Results - RepositoryStats

589

7.8k

mit

62

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

gpt llm gpt-4o gpt-4v vit-6b vit-22b multi-modal image-classification image-text-retrieval video-classification semantic-segmentation vision-language-model

Created 2023-11-22

238 commits to main branch, last one 5 days ago

BLIP salesforce

682

5.2k

bsd-3-clause

31

PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

vision-language image-captioning visual-reasoning image-text-retrieval visual-question-answering vision-language-transformer vision-and-language-pre-training

Created 2022-01-25

64 commits to main branch, last one 2 years ago

Chinese-CLIP OFA-Sys

494

5.1k

mit

37

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

nlp clip chinese pytorch multi-modal transformers coreml-models deep-learning computer-vision vision-language contrastive-loss pretrained-models image-text-retrieval multi-modal-learning vision-and-language-pre-training

Created 2022-07-08

382 commits to master branch, last one 8 months ago

Awesome_Matching_Pretraining_Transfering Paranioar

48

425

mit

13

The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insigh...

tutorial awesome-list image-text-matching large-vision-models vision-and-language image-text-retrieval large-language-model video-text-retrieval cross-modal-retrieval large-language-models multimodal-pretraining video-text-recognition memory-efficient-tuning text-to-image-synthesis text-to-image-generation text-to-video-generation visual-semantic-embedding large-vision-language-models parameter-efficient-fine-tuning multimodal-large-language-models

Created 2020-12-22

130 commits to main branch, last one 4 months ago

tidy slavabarkov

28

421

gpl-3.0

7

Offline semantic Text-to-Image and Image-to-Image search on Android powered by quantized state-of-the-art vision-language pretrained CLIP model and ONNX Runtime inference engine

nlp clip onnx kotlin android image-search quantization deep-learning computer-vision image-retrieval semantic-search image-text-matching image-text-retrieval cross-modal-retrieval

Created 2023-02-24

43 commits to main branch, last one about a year ago

PicQuery greyovo

44

399

mit

4

🔍 Search local images with natural language on Android, powered by OpenAI's CLIP model. / 在 Android 上用自然语言搜索本地图片 (基于 OpenAI 的 CLIP 模型)

clip openai android jetpack-compose image-text-search material-design-3 image-text-retrieval

Created 2023-08-10

125 commits to master branch, last one 2 months ago

SGRAF Paranioar

36

215

unknown

5

[AAAI2021] The code of “Similarity Reasoning and Filtration for Image-Text Matching”

aaai text-matching image-retrieval similarity-metric image-text-matching image-text-retrieval cross-modal-retrieval

Created 2020-12-16

45 commits to main branch, last one about a year ago

Text2Poster-ICASSP-22 chuhaojin

18

211

mit

4

Official implementation of the ICASSP-2022 paper "Text2Poster: Laying Out Stylized Texts on Retrieved Images"

aigc pytorch deep-learning layout-design image-retrieval banner-generator image-processing object-detection poster-generation geneative-creation image-text-retrieval banner-advertisements multimodal-generation artificial-neural-networks encoder-decoder-architecture

Created 2022-09-18

61 commits to master branch, last one about a year ago

Ant-Multi-Modal-Framework alipay

5

142

cc-by-4.0

4

Research Code for Multimodal-Cognition Team in Ant Group

video-editing multimodal-llm multimodal-learning image-text-retrieval video-text-retrieval

Created 2023-08-21

142 commits to main branch, last one 9 months ago

BagFormer howard-hou

33

99

unknown

23

PyTorch code for BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

vision-language image-text-retrieval cross-modal-retrieval

Created 2022-05-24

35 commits to main branch, last one 2 years ago

mPLUG X-PLUG

8

91

unknown

2

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. (EMNLP 2022)

vqa pytorch image-text multimodal pretraining transformer visual-language image-captioning image-text-retrieval

Created 2023-05-08

4 commits to main branch, last one about a year ago

Chinese-CLIP-opencv-onnxrun hpc203

14

72

unknown

2

使用OpenCV+onnxruntime部署中文clip做以文搜图，给出一句话来描述想要的图片，就能从图库中搜出来符合要求的图片。包含C++和Python两个版本的程序

clip opencv-dnn image-text-retrieval multimodal-large-language-models

Created 2023-12-24

17 commits to main branch, last one about a year ago

rosita MILVLG

13

56

apache-2.0

0

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration

vqa pre-training vision-and-language image-text-retrieval referring-expression-comprehension

Created 2021-08-02

59 commits to main branch, last one about a year ago

image-captioning cobanov

11

47

unknown

1

Image captioning using python and BLIP

blip img2text vision-language image-captioning visual-reasoning image-text-retrieval

Created 2023-01-13

32 commits to master branch, last one about a year ago

ComCLIP eric-ai-lab

3

35

mit

2

Official implementation and dataset for the NAACL 2024 paper "ComCLIP: Training-Free Compositional Image and Text Matching"

svo clip slip blip2 causality flickr30k winoground compositionality flickr8k-dataset image-text-matching vision-and-language image-text-retrieval

Created 2023-11-10

13 commits to main branch, last one about a year ago

CPL eric-ai-lab

5

33

mit

3

Official implementation of our EMNLP 2022 paper "CPL: Counterfactual Prompt Learning for Vision and Language Models"

vqa prompt-tuning causal-inference vision-and-language image-classification image-text-retrieval counterfactual-reasoning

Created 2022-10-26

16 commits to master branch, last one 2 years ago

RCAR Paranioar

3

33

apache-2.0

1

[TIP2023] The code of “Plug-and-Play Regulators for Image-Text Matching”

tip regulator text-matching image-retrieval image-text-matching image-text-retrieval cross-modal-retrieval

Created 2023-03-23

15 commits to main branch, last one about a year ago