Search Results - RepositoryStats

Awesome-Multimodal-Large-Language-Models BradyFU

951

14.8k

unknown

279

:sparkles::sparkles:Latest Advances on Multimodal Large Language Models

multi-modality chain-of-thought instruction-tuning in-context-learning instruction-following large-language-models visual-instruction-tuning large-vision-language-model multimodal-chain-of-thought large-vision-language-models multimodal-instruction-tuning multimodal-in-context-learning multimodal-large-language-models

Created 2023-05-19

838 commits to main branch, last one 22 hours ago

ShareGPT4Video ShareGPT4Omni

41

1.1k

unknown

24

[NeurIPS 2024] An official implementation of ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

gpt sora gpt-4v chatgpt text-to-video large-language-models large-multimodal-models large-video-language-models large-vision-language-models

Created 2024-06-06

44 commits to master branch, last one 6 months ago

DoRA NVlabs

53

769

other

10

[ICML2024 (Oral)] Official PyTorch implementation of DoRA: Weight-Decomposed Low-Rank Adaptation

lora deep-learning instruction-tuning vision-and-language deep-neural-networks commonsense-reasoning large-language-models parameter-efficient-tuning large-vision-language-models parameter-efficient-fine-tuning

Created 2024-04-11

45 commits to main branch, last one 6 months ago

Video-MME MME-Benchmarks

20

532

unknown

6

✨✨[CVPR 2025] Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

mme video video-mme large-language-models large-vision-language-models multimodal-large-language-models

Created 2024-06-02

58 commits to main branch, last one 8 days ago

Awesome-LLMs-meet-Multimodal-Generation YingqingHe

26

463

unknown

18

🔥🔥🔥 A curated list of papers on LLMs-based multimodal generation (image, video, 3D and audio).

llm aigc lvlm mllm text-to-3d multimodality text-to-audio text-to-image text-to-music text-to-sound text-to-video text-to-speech multimodal-models large-language-models multimodal-generation large-vision-language-models multimodal-large-language-models

Created 2023-11-17

357 commits to main branch, last one 20 days ago

Awesome_Matching_Pretraining_Transfering Paranioar

48

425

mit

13

The Paper List of Large Multi-Modality Model (Perception, Generation, Unification), Parameter-Efficient Finetuning, Vision-Language Pretraining, Conventional Image-Text Matching for Preliminary Insigh...

tutorial awesome-list image-text-matching large-vision-models vision-and-language image-text-retrieval large-language-model video-text-retrieval cross-modal-retrieval large-language-models multimodal-pretraining video-text-recognition memory-efficient-tuning text-to-image-synthesis text-to-image-generation text-to-video-generation visual-semantic-embedding large-vision-language-models parameter-efficient-fine-tuning multimodal-large-language-models

Created 2020-12-22

130 commits to main branch, last one 4 months ago

Awesome-Medical-Large-Language-Models burglarhobbit

34

300

cc0-1.0

10

Curated papers on Large Language Models in Healthcare and Medical domain

large-language-models large-vision-language-models multimodal-large-language-models

Created 2023-06-28

45 commits to main branch, last one 9 months ago

HallusionBench tianyi-lab

9

280

bsd-3-clause

5

[CVPR'24] HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

llm lmm vlms gpt-4 llava gpt-4v benchmark benchmarks hallucination large-language-models large-vision-language-models

Created 2023-10-22

136 commits to main branch, last one 5 months ago

ShareGPT4V ShareGPT4Omni

5

214

unknown

3

[ECCV 2024] ShareGPT4V: Improving Large Multi-modal Models with Better Captions

gpt gpt4v gpt-4v chatgpt eccv2024 language-model instruction-tuning large-language-models vision-language-model large-multimodal-models large-vision-language-models

Created 2024-06-06

3 commits to master branch, last one 9 months ago

Awesome-Chart-Understanding khuangaf

19

198

unknown

6

A curated list of recent and past chart understanding work based on our IEEE TKDE survey paper: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models...

awesome-list chart-captioning chart-summarization chart-understanding chart-question-answering large-vision-language-models

Created 2024-01-10

61 commits to main branch, last one 7 days ago

MMStar MMStar-Benchmark

5

175

unknown

1

[NeurIPS 2024] This repo contains evaluation code for the paper "Are We on the Right Way for Evaluating Large Vision-Language Models"

llm llms lvlm lvlms evaluation multimodal multimodality multimodal-learning large-language-models large-multimodal-models visual-question-answering large-vision-language-model large-vision-language-models

Created 2024-03-29

19 commits to main branch, last one 7 months ago

Awesome-LVLM-Hallucination NishilBalar

5

123

unknown

3

up-to-date curated list of state-of-the-art Large vision language models hallucinations research work, papers & resources

llm mlm lvlm mllm hallucination hallucination-survey large-language-models hallucination-research vision-language-models hallucination-benchmark hallucination-detection hallucination-evaluation hallucination-mitigation multimodal-language-model large-vision-language-models multimodal-large-language-models

Created 2024-03-15

55 commits to master branch, last one 18 days ago

talk2bev llmbev

10

109

bsd-3-clause

2

Talk2BEV: Language-Enhanced Bird's Eye View Maps (ICRA'24)

gpt-4 birds-eye-view autonomous-driving occupancy-grid-map large-language-models large-vision-language-models

Created 2023-09-15

33 commits to main branch, last one 5 months ago

apiprompting yu-rp

6

84

mit

1

[ECCV 2024] API: Attention Prompting on Image for Large Vision-Language Models

prompting visual-prompting vision-language-model vision-language-models large-multimodal-models large-vision-language-model large-vision-language-models

Created 2024-09-04

14 commits to master branch, last one 6 months ago

LLaVA-Align yfzhang114

2

78

apache-2.0

1

This is the official repo for Debiasing Large Visual Language Models, including a Post-Hoc debias method and Visual Debias Decoding strategy.

debiasing hallucination large-vision-language-models

Created 2024-01-23

8 commits to main branch, last one 2 months ago

GeoPixel mbzuai-oryx

4

74

apache-2.0

9

GeoPixel: A Pixel Grounding Large Multimodal Model for Remote Sensing is specifically developed for high-resolution remote sensing image analysis, offering advanced multi-target pixel grounding capabi...

grounding-llms remote-sensing foundation-models segmentation-models vision-language-models large-multimodal-models large-vision-language-models

Created 2025-01-23

82 commits to main branch, last one 26 days ago