Search Results - RepositoryStats

623

5.6k

mit

73

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.

llm gpt4 agent gpt4v chatgpt generative-ai

Created 2023-12-20

33 commits to main branch, last one 4 days ago

MobileAgent X-PLUG

381

3.9k

mit

61

Mobile-Agent: The Powerful Mobile Device Operation Assistant Family

app gui ios mllm agent gpt4v mobile android copilot harmony automation multimodal mobile-agents multimodal-agent multimodal-large-language-models

Created 2024-01-26

190 commits to main branch, last one 6 days ago

Open-Interface AmberSahdev

190

1.9k

gpl-3.0

31

Control Any Computer Using LLMs.

gpt llm gpt4 gpt4v linux macos openai python windows assistant pyautogui automation gpt4vision pyinstaller self-driving machine-learning self-driving-software assistant-computer-control

Created 2024-01-25

173 commits to main branch, last one 7 days ago

tarsier reworkd

103

1.6k

mit

12

Vision utilities for web interaction agents 👀

ocr llms gpt4v python selenium playwright webscraping pypi-package

Created 2023-11-09

289 commits to main branch, last one 5 months ago

LLaVA-Mini ictnlp

18

415

apache-2.0

9

LLaVA-Mini is a unified large multimodal model (LMM) that can support the understanding of images, high-resolution images, and videos in an efficient manner.

gpt4o gpt4v llama llava video vision efficient multimodal large-language-models vision-language-model large-multimodal-models visual-instruction-tuning multimodal-large-language-models

Created 2025-01-07

8 commits to main branch, last one 2 months ago

WebcamGPT-Vision bdekraker

49

282

unknown

4

Lightweight GPT-4 Vision processing over the Webcam

gpt-4 gpt4v openai chatgpt gpt4-api computer-vision

Created 2023-11-07

17 commits to main branch, last one about a year ago

Awesome-Multimodal-Prompts langgptai

16

245

apache-2.0

2

Prompts of GPT-4V & DALL-E3 to full utilize the multi-modal ability. GPT4V Prompts, DALL-E3 Prompts.

gpt4 gpt4v dall-e awesome chatgpt dall-e3 newbing prompts multimodal awesome-list dall-e3-prompts jailbreak-prompt prompt-injection multimodal-prompts prompt-engineering

Created 2023-09-30

44 commits to main branch, last one about a year ago

ShareGPT4V ShareGPT4Omni

5

209

unknown

3

[ECCV 2024] ShareGPT4V: Improving Large Multi-modal Models with Better Captions

gpt gpt4v gpt-4v chatgpt eccv2024 language-model instruction-tuning large-language-models vision-language-model large-multimodal-models large-vision-language-models

Created 2024-06-06

3 commits to master branch, last one 8 months ago

vscode-ui-sketcher pAIrprogio

13

200

agpl-3.0

2

Draw your projects to life

gpt4v tldraw ui-design vscode-extension

Created 2023-11-08

60 commits to main branch, last one about a year ago

amazing-openai-api soulteary

13

147

apache-2.0

3

Convert different model APIs into the OpenAI API format out of the box.

gpt4v openai yi-34b gemini-pro gpt4vision openai-api yi-34b-chat azure-openai google-gemini azure-openai-api

Created 2023-12-22

52 commits to main branch, last one about a year ago

MM-Navigator zzxslp

2

134

unknown

14

GPT-4V in Wonderland: LMMs as Smartphone Agents

gpt4v llm-agents web-navigation

Created 2023-11-13

7 commits to main branch, last one 8 months ago

MambaByte kyegomez

7

115

mit

3

Implementation of MambaByte in "MambaByte: Token-free Selective State Space Model" in Pytorch and Zeta

ai ml gpt4v mamba megabyte tokenizer multi-modality machine-learning artificial-intelligence

Created 2024-01-26

9 commits to main branch, last one about a year ago

sketch2app cameronking4

37

79

unknown

3

The ultimate sketch to code app made using GPT4o serving 25k+ users. Choose your desired framework (React, Next, React Native, Flutter) for your app. It will instantly generate code and preview (sandb...

gpt4 gpt4v nextjs openai ai-tool app-maker pad2pixel wireframe sketch2app design2code gpt4-vision sketch2code code-assistant code-generator generate-app-ai

Created 2023-11-19

95 commits to main branch, last one 10 months ago

Chinese-LLaVA-Med BUAADreamer

4

76

apache-2.0

1

中文医学多模态大模型 Large Chinese Language-and-Vision Assistant for BioMedicine

ai mllm gpt4v llava chinese medical qwen1-5 minigpt4 multimodal transformers llama-factory huggingface-datasets

Created 2024-05-08

19 commits to master branch, last one 10 months ago

GPT4-Vision-React-Starter admineral

42

75

unknown

2

Early Alpha Release: Chat with Your Image - Leveraging GPT-4 Vision and Function Calls for AI-Powered Image Analysis and Description

ai gpt4 gpt4v openai gpt4-api openaiapi openai-api chatgpt-api gpt4-vision gpt-4-vision-preview

Created 2023-11-06

9 commits to main branch, last one about a year ago

gpt-checkup roboflow

5

34

unknown

6

Monitor the performance of OpenAI's GPT O3 Mini model over time.

o1 gpt4v gpt-o1 model-analysis computer-vision

Created 2023-11-14

615 commits to main branch, last one 3 days ago

gpt4v-video-voiceover limeberri

8

33

apache-2.0

2

Video Voiceover with gpt-4o-mini

gpt4v openai python streamlit jupyter-notebook

Created 2023-11-12

11 commits to main branch, last one 5 months ago

webmarker reidbarber

3

30

mit

2

Mark web pages for use with vision-language models

cua som llms gpt4o gpt4v claude gemini prompt qwen-vl operator playwright set-of-mark computer-use prompt-engineering computer-using-agent vision-language-model

Created 2024-04-29

87 commits to main branch, last one 2 months ago

rag-as-a-service-with-vision Azure-Samples

5

26

mit

12

This repository offers a Python framework for a retrieval-augmented generation (RAG) pipeline using text and images from MHTML documents, leveraging Azure AI and OpenAI services. It includes ingestion...

llm rag gpt4v gpt-4o openai vision cosmosdb gpt4vision azure-ai-search azure-ai-vision

Created 2024-03-05

66 commits to main branch, last one 4 months ago