Search Results - RepositoryStats

260

4.2k

apache-2.0

40

Solve Visual Understanding with Reinforced VLMs

llm vlm grpo qwen vlm-r1 r1-zero multimodal deepseek-r1 multimodal-r1 reinforcement-learning

Created 2025-02-06

165 commits to main branch, last one a day ago

18

504

unknown

15

Explore the Multimodal “Aha Moment” on 2B Model

r1 grpo r1-zero deepseek reasoning multimodal deepseek-r1 multimodal-r1 post-training deepseek-r1-zero multimodal-journey reinforcement-learning

Created 2025-02-24

148 commits to main branch, last one 24 hours ago

13

224

apache-2.0

5

🌾 OAT: A research-friendly framework for LLM online alignment, including preference learning, reinforcement learning, etc.

dpo llm ppo grpo rlhf r1-zero alignment online-rl reasoning llm-aligment distributed-rl dueling-bandits llm-exploration online-alignment thompson-sampling distributed-training

Created 2024-10-15

30 commits to main branch, last one 9 days ago