Search Results - RepositoryStats

Awesome-Multimodal-Large-Language-Models BradyFU

944

14.8k

unknown

277

:sparkles::sparkles:Latest Advances on Multimodal Large Language Models

multi-modality chain-of-thought instruction-tuning in-context-learning instruction-following large-language-models visual-instruction-tuning large-vision-language-model multimodal-chain-of-thought large-vision-language-models multimodal-instruction-tuning multimodal-in-context-learning multimodal-large-language-models

Created 2023-05-19

836 commits to main branch, last one 5 days ago

Osprey CircleRadon

43

816

apache-2.0

14

[CVPR2024] The code for "Osprey: Pixel Understanding with Visual Instruction Tuning"

sam mllm pixel-understanding visual-instruction-tuning

Created 2023-12-17

31 commits to main branch, last one about a month ago

LLaVA-Mini ictnlp

20

453

apache-2.0

9

LLaVA-Mini is a unified large multimodal model (LMM) that can support the understanding of images, high-resolution images, and videos in an efficient manner.

gpt4o gpt4v llama llava video vision efficient multimodal large-language-models vision-language-model large-multimodal-models visual-instruction-tuning multimodal-large-language-models

Created 2025-01-07

8 commits to main branch, last one 3 months ago

lmms-finetune zjysteven

30

289

apache-2.0

8

A minimal codebase for finetuning large multimodal models, supporting llava-1.5/1.6, llava-interleave, llava-next-video, llava-onevision, llama-3.2-vision, qwen-vl, qwen2-vl, phi3-v etc.

llava qwen-vl finetuning llava-next multimodal vision-language foundation-models instruction-tuning large-language-model large-multimodal-models visual-instruction-tuning multimodal-large-language-models

Created 2024-07-20

109 commits to main branch, last one 2 months ago

DataOptim BAAI-DCAI

3

76

mit

5

A collection of visual instruction tuning datasets.

llm mllm visual-instruction-tuning

Created 2023-10-07

24 commits to main branch, last one about a year ago

polite-flamingo ChenDelong1999

3

64

unknown

5

🦩 Visual Instruction Tuning with Polite Flamingo - training multi-modal LLMs to be both clever and polite! (AAAI-24 Oral)

large-language-models visual-instruction-tuning multimodal-large-language-models

Created 2023-07-02

35 commits to main branch, last one about a year ago

VideoTGB bigai-nlco

2

29

mit

2

[EMNLP 2024] A Video Chat Agent with Temporal Prior

llm mllm video-language spatial-temporal visual-instruction-tuning multimodal-large-language-models

Created 2024-02-25

18 commits to main branch, last one about a month ago

$fraction-ai$

GAP fraction-ai

2

26

apache-2.0

1

Gamified Adversarial Prompting (GAP): Crowdsourcing AI-weakness-targeting data through gamification. Boost model performance with community-driven, strategic data collection

ai llm vqa web3 vqa-dataset computer-vision artificial-intelligence visual-instruction-tuning

Created 2024-10-04

13 commits to main branch, last one 6 months ago