Search Results - RepositoryStats

2.4k

22.1k

apache-2.0

158

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

gpt-4 llama llava llama2 chatbot chatgpt llama-2 multimodal multi-modality foundation-models instruction-tuning vision-language-model visual-language-learning

Created 2023-04-17

460 commits to main branch, last one 11 months ago

InternVL OpenGVLab

571

7.4k

mit

57

[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型

gpt llm gpt-4o gpt-4v vit-6b vit-22b multi-modal image-classification image-text-retrieval video-classification semantic-segmentation vision-language-model

Created 2023-11-22

236 commits to main branch, last one 18 days ago

Qwen-VL QwenLM

436

5.7k

other

49

The official repo of Qwen-VL (通义千问-VL) chat & pretrained large vision language model proposed by Alibaba Cloud.

large-language-models vision-language-model

Created 2023-08-21

136 commits to master branch, last one 12 months ago

DeepSeek-VL deepseek-ai

560

3.8k

mit

35

DeepSeek-VL: Towards Real-World Vision-Language Understanding

foundation-models vision-language-model vision-language-pretraining

Created 2024-03-07

11 commits to main branch, last one 11 months ago

MGM dvlab-research

282

3.3k

apache-2.0

28

Official repo for "Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models"

generation large-language-models vision-language-model

Created 2024-03-26

35 commits to main branch, last one 11 months ago

align-anything PKU-Alignment

398

3.3k

apache-2.0

261

Align Anything: Training All-modality Model with Feedback

dpo rlhf chameleon multimodal large-language-models vision-language-model

Created 2024-07-14

117 commits to main branch, last one 7 days ago

InternLM-XComposer InternLM

171

2.8k

apache-2.0

43

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

gpt llm mllm gpt-4 chatgpt foundation multimodal language-model multi-modality instruction-tuning vision-transformer large-language-model supervised-finetuning vision-language-model visual-language-learning large-vision-language-model

Created 2023-09-26

416 commits to main branch, last one 2 months ago

VLM_survey jingyi0000

203

2.6k

unknown

99

Collection of AWESOME vision-language models for vision tasks

clip survey deep-learning computer-vision multi-modal-model transfer-learning vision-language-model knowledge-distillation

Created 2023-03-30

91 commits to main branch, last one 14 days ago

MiniMax-01 MiniMax-AI

181

2.5k

mit

38

The official repo of MiniMax-Text-01 and MiniMax-VL-01, large-language-model & vision-language-model based on Linear Attention

llm vlm llms minimax-vl-01 minimax-text-01 large-language-models vision-language-model

Created 2025-01-14

29 commits to main branch, last one 5 days ago

minimind-v jingyaogong

240

2.3k

apache-2.0

29

🚀 「大模型」1小时从0训练26M参数的视觉多模态VLM！🌏 Train a 26M-parameter VLM from scratch in just 1 hours!

chatgpt vision-language-model artificial-intelligence

Created 2024-09-11

105 commits to master branch, last one 4 days ago

Cradle BAAI-Agents

184

2.1k

mit

27

The Cradle framework is a first attempt at General Computer Control (GCC). Cradle supports agents to ace any computer task by enabling strong reasoning abilities, self-improvment, and skill curation, ...

ai gcc llm lmm vlm cradle ai-agent grounding personoid generative-ai multimodality computer-control foundation-agent ai-agents-framework large-language-models vision-language-model general-computer-control

Created 2024-03-03

35 commits to main branch, last one 5 months ago

colpali illuin-tech

144

1.7k

mit

18

The code used to train and run inference with the ColVision models, e.g. ColPali, ColQwen2, and ColSmol.

colpali colsmol colqwen2 information-retrieval vision-language-model retrieval-augmented-generation

Created 2024-06-20

182 commits to main branch, last one a day ago

AdvancedLiterateMachinery AlibabaResearch

190

1.7k

apache-2.0

40

A collection of original, innovative ideas and algorithms towards Advanced Literate Machinery. This project is maintained by the OCR Team in the Language Technology Lab, Tongyi Lab, Alibaba Group.

Created 2022-09-28

69 commits to main branch, last one 3 months ago

prismer NVlabs

73

1.3k

other

16

The implementation of "Prismer: A Vision-Language Model with Multi-Task Experts".

vqa language-model image-captioning multi-task-learning vision-and-language multi-modal-learning vision-language-model

Created 2023-03-02

36 commits to main branch, last one about a year ago

ShowUI showlab

74

1.2k

apache-2.0

15

[CVPR 2025] Open-source, End-to-end, Vision-Language-Action model for GUI Agent & Computer Use.

agent gui-agent computer-use vision-language-model vision-language-action

Created 2024-10-31

267 commits to main branch, last one 24 days ago

mlx-vlm Blaizzy

107

1.1k

mit

13

MLX-VLM is a package for inference and fine-tuning of Vision Language Models (VLMs) on your Mac using MLX.

llm mlx llava molmo idefics pixtral local-ai florence2 paligemma apple-silicon vision-framework vision-transformer vision-language-model

Created 2024-04-16

224 commits to main branch, last one 10 days ago

awesome-japanese-llm llm-jp

34

1.1k

apache-2.0

26

日本語LLMまとめ - Overview of Japanese LLMs

llm llms japanese multimodal japanese-llm llm-japanese generative-ai language-model language-models vision-language generative-model foundation-models generative-models japanese-language vision-and-language large-language-model large-language-models vision-language-model japanese-language-model

Created 2023-07-09

517 commits to main branch, last one a day ago

vlms-zero-to-hero SkalskiP

97

1.1k

apache-2.0

44

This series will take you on a journey from the fundamentals of NLP and Computer Vision to the cutting edge of Vision-Language Models.

gpt clip lora gpt-2 seq2seq word2vec bert-model embeddings computer-vision vision-language-model natural-language-processing

Created 2024-12-20

6 commits to master branch, last one 2 months ago

Chat-UniVi PKU-YuanGroup

45

930

apache-2.0

9

[CVPR 2024 Highlight🔥] Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding

image-understanding video-understanding large-language-models vision-language-model

Created 2023-11-13

83 commits to main branch, last one 5 months ago

Ovis AIDC-AI

57

873

apache-2.0

13

A novel Multimodal Large Language Model (MLLM) architecture, designed to structurally align visual and textual embeddings.

qwen llama3 chatbot multimodal multimodality vision-language-model vision-language-learning multimodal-large-language-models

Created 2024-06-13

40 commits to main branch, last one 13 days ago

groundingLMM mbzuai-oryx

46

860

unknown

31

[CVPR 2024 🔥] Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.

lmm llm-agent foundation-models vision-and-language vision-language-model

Created 2023-11-02

43 commits to main branch, last one 4 months ago

AlphaCLIP SunzeY

55

798

apache-2.0

12

[CVPR 2024] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

deep-learning vision-language machine-learning vision-transformer vision-and-language vision-language-model

Created 2023-11-27

97 commits to main branch, last one 8 months ago

awesome-vlm-architectures gokayfem

39

764

cc0-1.0

15

Famous Vision Language Models and Their Architectures

vlm blip clip llava cogvlm kosmos awesome qwen-vl internlm multimodal awesome-list text-encoder image-encoder vision-language-model

Created 2024-02-15

240 commits to main branch, last one about a month ago

Awesome-Robotics-3D zubair-irshad

35

674

unknown

15

A curated list of 3D Vision papers relating to Robotics domain in the era of large models i.e. LLMs/VLMs, inspired by awesome-computer-vision, including papers, codes, and related websites

3d llm vlm nerf grasping robotics benchmarks navigation pointclouds pretraining scene-graph simulations manipulation computer-vision policy-learning diffusion-models foundation-models gaussian-splatting vision-language-model

Created 2024-08-12

41 commits to main branch, last one 5 months ago

VisRAG OpenBMB

52

656

apache-2.0

12

Parsing-free RAG supported by VLMs

rag retrieval multi-modal multi-modality document-retrieval vision-language-model document-understanding retrieval-augmented-generation

Created 2024-10-14

119 commits to master branch, last one about a month ago

VoxPoser huangwl18

87

654

mit

9

VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

robotics embodied-ai motion-planning foundation-models robotic-manipulation large-language-models vision-language-model

Created 2023-11-02

5 commits to main branch, last one about a month ago

Qwen2-VL-Finetune 2U1

66

590

apache-2.0

7

An open-source implementaion for fine-tuning Qwen2-VL and Qwen2.5-VL series by Alibaba Cloud.

chatbot qwen2-5 qwen2-vl multimodal vision-language vision-language-model

Created 2024-09-10

98 commits to master branch, last one 4 days ago

Groma FoundationVision

44

553

apache-2.0

27

[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization

llm mllm llama llama2 grounding multimodal foundation-models large-language-models vision-language-model

Created 2024-04-21

30 commits to main branch, last one 10 months ago

meme-search neonwatty

23

531

apache-2.0

4

The open source Meme Search Engine and Finder. Free and built to self-host locally with Python, Ruby, and Docker.

docker python self-hosted ruby-on-rails vector-database machine-learning vision-language-model

Created 2024-06-08

453 commits to main branch, last one 7 days ago

Multi-Modality-Arena OpenGVLab

37

511

unknown

7

Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP...

vqa chat llms gradio chatbot chatgpt multi-modality large-language-models vision-language-model

Created 2023-05-10

86 commits to main branch, last one 11 months ago