Search Results - RepositoryStats

8

321

mit

10

EVE Series: Encoder-Free Vision-Language Models from BAAI

llm vlm clip mllm encoder-free-vlm instruction-following large-language-models vision-language-models multimodal-large-language-models

Created 2024-06-14

26 commits to main branch, last one about a month ago

MyVLM snap-research

11

168

other

12

Official Implementation for "MyVLM: Personalizing VLMs for User-Specific Queries" (ECCV 2024)

personalization vision-language-models

Created 2024-03-20

12 commits to master branch, last one 9 months ago

DenseFusion baaivision

1

143

unknown

5

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

vlm mllm visual-perception image-descriptions vision-language-models multimodal-large-language-models

Created 2024-07-05

9 commits to main branch, last one 4 months ago

GPA-LM BAAI-Agents

7

140

unknown

4

This repo is a live list of papers on game playing and large multimodality model - "A Survey on Game Playing Agents and Large Models: Methods, Applications, and Challenges".

ai gcc llm vlm games agents gameai gameplay planning multimodal awesome-list generative-ai agent-framework large-language-models vision-language-models general-computer-control

Created 2024-02-01

7 commits to main branch, last one 8 months ago

Awesome-LVLM-Hallucination NishilBalar

5

121

unknown

3

up-to-date curated list of state-of-the-art Large vision language models hallucinations research work, papers & resources

llm mlm lvlm mllm hallucination hallucination-survey large-language-models hallucination-research vision-language-models hallucination-benchmark hallucination-detection hallucination-evaluation hallucination-mitigation multimodal-language-model large-vision-language-models multimodal-large-language-models

Created 2024-03-15

55 commits to master branch, last one 16 days ago

PIIP OpenGVLab

2

88

mit

5

[NeurIPS 2024 Spotlight ⭐️] Parameter-Inverted Image Pyramid Networks (PIIP)

computer-vision object-detection vision-transformer image-classification instance-segmentation semantic-segmentation vision-language-models multimodal-large-language-models

Created 2024-06-03

50 commits to main branch, last one 3 days ago

apiprompting yu-rp

6

84

mit

1

[ECCV 2024] API: Attention Prompting on Image for Large Vision-Language Models

prompting visual-prompting vision-language-model vision-language-models large-multimodal-models large-vision-language-model large-vision-language-models

Created 2024-09-04

14 commits to master branch, last one 6 months ago

GeoPixel mbzuai-oryx

4

74

apache-2.0

9

GeoPixel: A Pixel Grounding Large Multimodal Model for Remote Sensing is specifically developed for high-resolution remote sensing image analysis, offering advanced multi-target pixel grounding capabi...

grounding-llms remote-sensing foundation-models segmentation-models vision-language-models large-multimodal-models large-vision-language-models

Created 2025-01-23

82 commits to main branch, last one 24 days ago

toolkit drive-bench

2

70

apache-2.0

8

Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

phi-3 chatgpt internvl qwen2-vl autonomous-driving driving-with-language vision-language-models

Created 2025-01-01

33 commits to main branch, last one 2 months ago

Jailbreak-In-Pieces erfanshayegani

4

50

mit

2

[ICLR 2024 Spotlight 🔥 ] - [ Best Paper Award SoCal NLP 2023 🏆] - Jailbreak in pieces: Compositional Adversarial Attacks on Multi-Modal Language Models

llm vlm ai-safety alignment multi-modal-models vision-language-models cross-modality-safety-alignment

Created 2024-06-04

48 commits to main branch, last one 10 months ago

RS-TransCLIP elkhouryk

2

49

unknown

1

[ICASSP 2025] Open-source code for the paper "Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification"

aerial-imagery remote-sensing earth-observation satellite-imagery image-classification scene-classification transductive-learning vision-language-models zero-shot-classification

Created 2024-08-15

80 commits to main branch, last one 13 days ago

SAIL lezhang7

2

33

unknown

1

[CVPR 2025 Highlight] Official Pytorch codebase for paper: "Assessing and Learning Alignment of Unimodal Vision and Language Models"

efficient-learning vision-language-models

Created 2024-06-27

118 commits to main branch, last one 6 days ago

SpatialEval jiayuww

2

31

unknown

1

[NeurIPS'24] SpatialEval: a benchmark to evaluate spatial reasoning abilities of MLLMs and LLMs

claude gemini gpt-4o gpt-4v llama3 reasoning machine-learning foundation-models spatial-reasoning large-language-models vision-language-models multimodal-deep-learning

Created 2024-10-23

10 commits to main branch, last one 3 months ago

CPL-ICML2024 vanillaer

3

26

unknown

1

[ICML 2024] Offical code repo for ICML2024 paper "Candidate Pseudolabel Learning: Enhancing Vision-Language Models by Prompt Tuning with Unlabeled Data"

pseudolabels unlabeled-data vision-language-models

Created 2024-05-30

7 commits to master branch, last one 10 months ago

awesome-vision-time-series D2I-Group

1

25

mit

1

This is an official repository for "Harnessing Vision Models for Time Series Analysis: A Survey".

time-series vision-models large-vision-models vision-language-models large-multimodal-models

Created 2025-01-24

36 commits to main branch, last one about a month ago