Search Results - RepositoryStats

175

2k

mit

27

The Cradle framework is a first attempt at General Computer Control (GCC). Cradle supports agents to ace any computer task by enabling strong reasoning abilities, self-improvment, and skill curation, ...

ai gcc llm lmm vlm cradle ai-agent grounding personoid generative-ai multimodality computer-control foundation-agent ai-agents-framework large-language-models vision-language-model general-computer-control

Created 2024-03-03

35 commits to main branch, last one 3 months ago

awesome-grounding TheShadow29

99

1.1k

mit

30

awesome grounding: A curated list of research papers in visual grounding

arxiv paper papers grounding awesome-list paper-roadmap embodied-agent computer-vision image-grounding video-grounding phrase-grounding visual-grounding captioning-images captioning-videos language-grounding video-understanding multimodal-deep-learning natural-language-processing

Created 2018-09-03

97 commits to master branch, last one about a year ago

Groma FoundationVision

61

540

apache-2.0

27

[ECCV2024] Grounded Multimodal Large Language Model with Localized Visual Tokenization

llm mllm llama llama2 grounding multimodal foundation-models large-language-models vision-language-model

Created 2024-04-21

30 commits to main branch, last one 8 months ago

calvin mees

67

477

mit

5

CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks

vision pytorch robotics grounding manipulation deep-learning computer-vision vision-language vision-and-language natural-language-processing

Created 2021-07-20

271 commits to main branch, last one 4 days ago

cliport cliport

85

476

apache-2.0

6

CLIPort: What and Where Pathways for Robotic Manipulation

clip vision pytorch robotics grounding manipulation deep-learning rearrangement computer-vision vision-language natural-language-processing

Created 2021-09-20

91 commits to master branch, last one about a year ago

lumos allenai

30

462

mit

10

Code and data for "Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs"

maths planning grounding reasoning web-agent language-agent decision-making question-answering

Created 2023-10-01

115 commits to main branch, last one 11 months ago

Video-LLaVA mbzuai-oryx

12

250

unknown

14

PG-Video-LLaVA: Pixel Grounding in Large Multimodal Video Models

llm lmm video grounding transcription video-grounding video-conversation

Created 2023-11-20

8 commits to main branch, last one about a year ago

Grounding_LLMs_with_online_RL flowersteam

28

244

mit

8

We perform functional grounding of LLMs' knowledge in BabyAI-Text

grounding language-model interactive-agents reinforcement-learning

Created 2023-02-01

52 commits to main branch, last one 5 months ago

CLIP-VG linhuixiao

8

116

apache-2.0

4

[TMM 2023] Self-paced Curriculum Adapting of CLIP for Visual Grounding.

clip grounding

Created 2023-05-13

32 commits to master branch, last one 28 days ago

Awesome-Visual-Grounding linhuixiao

10

87

apache-2.0

4

[TPAMI reviewing] Towards Visual Grounding: A Survey

survey awesome grounding visual-grounding

Created 2024-07-03

63 commits to master branch, last one 5 days ago

StructLM TIGER-AI-Lab

9

76

mit

4

Code and data for "StructLM: Towards Building Generalist Models for Structured Knowledge Grounding" (COLM 2024)

llm grounding reasoning

Created 2024-02-25

41 commits to main branch, last one 4 months ago

hulc lukashermann

9

69

mit

2

Hierarchical Universal Language Conditioned Policies

vision pytorch robotics grounding manipulation deep-learning computer-vision vision-language vision-and-language natural-language-processing

Created 2022-04-12

47 commits to main branch, last one 11 months ago

VidSitu TheShadow29

8

58

mit

3

[CVPR21] Visual Semantic Role Labeling for Video Understanding (https://arxiv.org/abs/2104.00990)

nlp srl video vision grounding captioning semantic-roles video-language event-relations captioning-videos vision-and-language

Created 2021-02-10

57 commits to main branch, last one 3 years ago

DUET zjukg

8

49

mit

3

[Paper][AAAI 2023] DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning

pytorch semantic grounding cross-modal transformer visual-grounding knowledge-transfer zero-shot-learning pretrained-language-model

Created 2022-11-27

48 commits to main branch, last one about a year ago

hulc2 mees

3

38

mit

3

[ICRA2023] Grounding Language with Visual Affordances over Unstructured Data

vision pytorch robotics grounding manipulation deep-learning computer-vision vision-language vision-and-language natural-language-processing

Created 2022-11-06

4 commits to main branch, last one about a year ago

HiVG linhuixiao

4

37

apache-2.0

2

[ACM MM 2024] Hierarchical Multimodal Fine-grained Modulation for Visual Grounding.

clip grounding

Created 2024-04-20

20 commits to master branch, last one 2 days ago

LAR-Look-Around-and-Refer eslambakr

2

30

mit

2

This is the official implementation for our paper;"LAR:Look Around and Refer".

3d cnn neurips geometry grounding deeplearning neurips-2022 transformers machine-learning 3dvisualgrounding projective-geometry deep-neural-networks multimodal-deep-learning

Created 2022-03-14

22 commits to main branch, last one 2 years ago

Screen-Point-and-Read eric-ai-lab

2

25

unknown

2

Code repo for "Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding"

ai-agents grounding gui-agents tree-of-lens screen-reader layout-understanding

Created 2024-06-27

32 commits to main branch, last one 6 months ago