Search Results - RepositoryStats

Awesome-LLM-Strawberry hijkzzz

364

6.6k

apache-2.0

107

A collection of LLM papers, blogs, and projects, with a focus on OpenAI o1 🍓 and reasoning techniques.

llm mcts coding openai-o1 strawberry mathematics chain-of-thought reinforcement-learning

Created 2024-09-15

238 commits to main branch, last one 4 days ago

alpha-zero-general suragnair

1.1k

4.1k

mit

113

A clean implementation based on AlphaZero for any game in any framework + tutorial + Othello/Gobang/TicTacToe/Connect4 and more

tf mcts keras gobang gomoku alphago othello pytorch alphazero self-play alpha-zero tensorflow alphago-zero deep-learning neural-network reinforcement-learning monte-carlo-tree-search

Created 2017-12-01

221 commits to master branch, last one 2 months ago

AlphaZero_Gomoku junxiaosong

982

3.4k

mit

102

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

rl mcts gobang gomoku alphago pytorch alphazero board-game tensorflow alphago-zero self-learning reinforcement-learning monte-carlo-tree-search

Created 2017-12-21

49 commits to master branch, last one 10 months ago

muzero-general werner-duvaud

631

2.6k

mit

75

MuZero

rl gym mcts muzero alphago python3 pytorch alphazero tensorboard deep-learning self-learning model-based-rl muzero-general neural-network machine-learning residual-network reinforcement-learning monte-carlo-tree-search deep-reinforcement-learning

Created 2019-12-27

132 commits to master branch, last one 2 years ago

LightZero opendilab

145

1.3k

apache-2.0

11

[NeurIPS 2023 Spotlight] LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios (awesome MCTS)

Created 2022-10-08

200 commits to main branch, last one 5 days ago

Awesome-System2-Reasoning-LLM zzli2022

27

784

unknown

12

Latest Advances on System-2 Reasoning

o1 o3 r1 rl prm mcts system-2 benchmark reasoning slow-fast macro-action self-improve

Created 2025-02-09

46 commits to main branch, last one 2 days ago

tinyzero s-casci

22

428

mit

5

Easily train AlphaZero-like agents on any environment you want!

mcts alphazero reinforcement-learning

Created 2023-12-14

47 commits to main branch, last one about a year ago

tetris_mcts hrpan

34

345

unknown

11

MCTS project for Tetris

game mcts tetris tetris-bots deep-learning reinforcement-learning

This repository has been archived (exclude archived)

Created 2018-02-20

426 commits to master branch, last one 5 months ago

Hypernets DataCanvasIO

40

266

apache-2.0

17

A General Automated Machine Learning framework to simplify the development of End-to-end AutoML toolkits in specific domains.

nas enas mcts keras autodl automl nasnet hyperparameter-tuning reinforcement-learning evolutionary-algorithms monte-carlo-tree-search neural-architecture-search hyperparameter-optimization

Created 2020-06-22

1,334 commits to master branch, last one 8 months ago

CrazyAra QueensGambit

44

260

gpl-3.0

19

A Deep Learning UCI-Chess Variant Engine written in C++ & Python :parrot:

mcgs mcts gluon mxnet python alphago lichess alphazero crazyhouse open-source chess-engine python-chess deep-learning machine-learning artificial-intelligence convolutional-neural-network

Created 2018-09-09

1,532 commits to master branch, last one about a month ago

mcts-viz vgarciasc

12

228

unknown

2

Visualization of MCTS algorithm applied to Tic-tac-toe.

mcts p5js tictactoe visualization

Created 2020-11-18

11 commits to master branch, last one 3 years ago

Deep_RL_with_pytorch sungyubkim

48

211

unknown

6

A pytorch tutorial for DRL(Deep Reinforcement Learning)

a2c c51 dqn iqn ppo uct gail mcts hedge qr-dqn pytorch soft-actor-critic self-imitation-learning deep-reinforcement-learning random-network-distillation counterfactual-regret-minimization

Created 2019-02-04

80 commits to master branch, last one about a year ago

AlphaZero_Gomoku_MPI initial-h

45

200

unknown

10

An asynchronous/parallel method of AlphaGo Zero algorithm with Gomoku

mcts gomoku mpi4py alphago parallel algorithm alphazero tensorflow tensorlayer tree-search alphazero-gomoku dirichlet-distribution deep-reinforcement-learning

Created 2018-12-12

21 commits to master branch, last one 17 days ago

muzero kaesve

26

157

mit

7

A clean implementation of MuZero and AlphaZero following the AlphaZero General framework. Train and Pit both algorithms against each other, and investigate reliability of learned MuZero MDP models.

tf2 mcts muzero alphazero tensorflow tensorflow2 deep-learning reinforcement-learning deep-reinforcement-learning

Created 2020-09-12

210 commits to master branch, last one 3 years ago

chess-deep-rl zjeffer

12

131

gpl-3.0

8

Research project: create a chess engine using Deep Reinforcement Learning

ai mcts chess alphazero chess-engine deep-learning neural-network neural-networks machine-learning reinforcement-learning artificial-intelligence deep-reinforcement-learning

Created 2021-10-25

133 commits to main branch, last one 8 months ago

doom-net-pytorch akolishchak

19

131

mit

7

Reinforcement learning models in ViZDoom environment

ppo doom mcts agent pytorch vizdoom learning behavior-tree reinforcement doomnet-track1 reinforcement-learning

Created 2017-01-30

103 commits to master branch, last one 3 years ago

vehicle-interaction-decision-making PuYuuu

42

109

mit

2

The decision-making of multiple vehicles at intersection bases on level-k game and MCTS

mcts level-k game-theory

Created 2024-02-07

53 commits to main branch, last one about a month ago

allie manyoso

21

105

gpl-3.0

13

Allie: A UCI compliant chess engine

mcts chess deepmind alphabeta alphazero chess-engine neural-network

Created 2019-02-13

340 commits to master branch, last one 4 years ago

Sayuri CGLemon

10

95

gpl-3.0

3

AlphaZero based engine for the game of Go (圍棋/围棋).

mcts baduk weiqi sayuri alphago alphazero deeplearning gumbel-alphazero

Created 2021-04-02

937 commits to master branch, last one 22 days ago

turbozero lowrollr

9

93

apache-2.0

1

fast + parallel AlphaZero in JAX

jax mcts alphazero vectorization gpu-acceleration reinforcement-learning monte-carlo-tree-search

Created 2023-03-09

632 commits to main branch, last one 2 months ago

AlphaGo-Zero-Gobang YoujiaZhang

10

90

mit

2

Meta-Zeta是一个基于强化学习的五子棋(Gobang)模型，主要用以了解AlphaGo Zero的运行原理的Demo，即神经网络是如何指导MCTS做出决策的，以及如何自我对弈学习。源码+教程

ai gui mcts gobang gomuku alphago alphazero tensorflow deep-learning residual-networks

Created 2021-12-02

51 commits to main branch, last one 2 years ago

minizero rlglab

22

84

unknown

7

MiniZero: An AlphaZero and MuZero Training Framework

go hex mcts nogo atari gomoku muzero othello alphazero tictactoe killall-go board-games gumbel-muzero gumbel-alphazero outer-open-gomoku reinforcement-learning monte-carlo-tree-search deep-reinforcement-learning

Created 2023-10-16

442 commits to main branch, last one 21 days ago

Ray kobanium

79

76

bsd-2-clause

10

Computer go engine using Monte-Carlo Tree Search (MCTS)

go ray mcts baduk weiqi monte-carlo-tree-search

Created 2016-09-12

359 commits to master branch, last one 6 months ago

quoridor-ai gorisanson

9

71

mit

5

Quoridor AI based on Monte Carlo tree search

ai mcts quoridor quoridor-game monte-carlo-tree-search

Created 2019-06-21

208 commits to main branch, last one 10 months ago

MCTS-agent-python masouduut94

10

68

mit

2

Monte Carlo Tree Search (MCTS) is a method for finding optimal decisions in a given domain by taking random samples in the decision space and building a search tree accordingly. It has already had a p...

mcts game-of-hex decision-space sequential-decisions reinforcement-learning monte-carlo-tree-search markov-decision-processes

Created 2019-10-10

29 commits to master branch, last one about a year ago

MCTS-GSM8k-Demo Wangmerlyn

7

65

mit

1

This is a repo for showcasing using MCTS with LLMs to solve gsm8k problems

llms mcts llm-inference

Created 2025-01-04

9 commits to main branch, last one 2 months ago

TamaGo kobanium

12

64

apache-2.0

3

Computer go engine using Monte-Carlo Tree Search written in Python3.

go mcts baduk weiqi alphago alphagozero alphago-zero deep-learning go-text-protocol gumbel-alphazero reinforcement-learning monte-carlo-tree-search

Created 2023-01-22

178 commits to main branch, last one 3 months ago

pyDLGO CGLemon

9

62

mit

2

基於深度學習的 GTP 圍棋（围棋）引擎，KGS 指引文件以及演算法教學。

mcts baduk goban weiqi alphago game-of-go deep-learning

Created 2021-08-10

138 commits to master branch, last one 17 days ago

CoRe TianHongZXY

8

48

unknown

2

[ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models (LLMs + MCTS + Self-Improvement)

acl gpt nlp bert llms mcts gpt-j gsm8k acl2023 deberta gpt-j-6b reasoning language-model chain-of-thought math-word-problem monte-carlo-tree-search

Created 2023-05-07

7 commits to main branch, last one about a year ago

synthesis coreylowman

6

47

apache-2.0

2

A rust implementation of AlphaZero algorithm

mcts rust pytorch alphazero base65536 connect4-game deep-learning neural-network machine-learning

Created 2021-05-27

123 commits to main branch, last one 2 years ago