Search Results - RepositoryStats

200

2.4k

mit

26

A community-driven AI automation framework that builds upon the incredible work of the open source community. Our goal is to combine language models with specialized tools for tasks like web search, c...

ai agi llm qwen agent agents qwen-vl deepseek qwen2-vl langchain langgraph automation deepseek-r1 multi-agent deep-research multi-agent-systems

Created 2025-03-08

75 commits to main branch, last one 5 hours ago

awesome-vlm-architectures gokayfem

37

723

cc0-1.0

15

Famous Vision Language Models and Their Architectures

vlm blip clip llava cogvlm kosmos awesome qwen-vl internlm multimodal awesome-list text-encoder image-encoder vision-language-model

Created 2024-02-15

240 commits to main branch, last one 24 days ago

lmms-finetune zjysteven

26

276

apache-2.0

8

A minimal codebase for finetuning large multimodal models, supporting llava-1.5/1.6, llava-interleave, llava-next-video, llava-onevision, llama-3.2-vision, qwen-vl, qwen2-vl, phi3-v etc.

llava qwen-vl finetuning llava-next multimodal vision-language foundation-models instruction-tuning large-language-model large-multimodal-models visual-instruction-tuning multimodal-large-language-models

Created 2024-07-20

109 commits to main branch, last one about a month ago

webmarker reidbarber

3

30

mit

2

Mark web pages for use with vision-language models

cua som llms gpt4o gpt4v claude gemini prompt qwen-vl operator playwright set-of-mark computer-use prompt-engineering computer-using-agent vision-language-model

Created 2024-04-29

87 commits to main branch, last one 2 months ago