Search Results - RepositoryStats

Reinforcement-learning-with-tensorflow MorvanZhou

5.0k

9.1k

mit

290

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Created 2017-05-06

114 commits to master branch, last one 2 years ago

cleanrl vwxyzjn

728

6.7k

other

38

High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

a2c ale gym ppo atari wandb python pytorch actor-critic deep-learning machine-learning advantage-actor-critic phasic-policy-gradient reinforcement-learning deep-reinforcement-learning proximal-policy-optimization

Created 2019-06-07

836 commits to master branch, last one about a month ago

OpenRLHF OpenRLHF

600

6.1k

apache-2.0

35

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

vllm raylib openai-o1 transformers large-language-models reinforcement-learning proximal-policy-optimization reinforcement-learning-from-human-feedback

Created 2023-07-30

1,206 commits to main branch, last one 3 days ago

pytorch-a2c-ppo-acktr-gail ikostrikov

835

3.7k

mit

64

PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) ...

Created 2017-08-22

274 commits to master branch, last one 3 years ago

PPO-PyTorch nikhilbarhate99

374

2.0k

mit

6

Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

ppo pytorch ppo-pytorch deep-learning policy-gradient pytorch-tutorial pytorch-implmention reinforcement-learning deep-reinforcement-learning proximal-policy-optimization reinforcement-learning-algorithms

Created 2018-09-27

98 commits to master branch, last one about a year ago

PyTorch-RL Khrylx

191

1.2k

mit

26

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

a2c ppo trpo pytorch pytorch-rl fisher-vectors policy-gradient reinforcement-learning deep-reinforcement-learning proximal-policy-optimization generative-adversarial-network

Created 2017-10-17

100 commits to master branch, last one 4 years ago

Super-mario-bros-PPO-pytorch vietnh1009

209

1.1k

mit

28

Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

ai gym ppo ppo2 mario openai python python3 pytorch openai-gym deep-learning super-mario-bros reinforcement-learning proximal-policy-optimization

Created 2019-10-02

9 commits to master branch, last one 3 years ago

reinforcement-learning-algorithms TianhongDai

111

675

unknown

14

This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are st...

a2c dqn ppo sac ddpg trpo pytorch algorithm atari2600 dueling-dqn flappy-bird actor-critic deep-learning soft-actor-critic deep-reinforcement-learning proximal-policy-optimization trust-region-policy-optimization

Created 2018-01-13

25 commits to master branch, last one 4 years ago

autonomous-learning-library cpnota

72

653

mit

21

A PyTorch library for building deep reinforcement learning agents.

a2c dqn ppo sac ddpg dqn-pytorch deep-q-learning soft-actor-critic advantage-actor-critic reinforcement-learning deep-reinforcement-learning proximal-policy-optimization reinforcement-learning-algorithms deep-deterministic-policy-gradient

Created 2018-11-07

300 commits to develop branch, last one about a year ago

Autonomous-Driving-in-Carla-using-Deep-Reinforcement-Learning idreesshaikh

70

386

mit

5

Deep Reinforcement Learning (PPO) in Autonomous Driving (Carla) [from scratch]

ppo ddqn openai pytorch self-driving deep-learning carla-simulator self-driving-car carla-environment self-driving-cars autonomous-driving reinforcement-learning carla-driving-simulator deep-learning-algorithms deep-reinforcement-learning self-driving-car-simulation proximal-policy-optimization

Created 2022-05-18

46 commits to main branch, last one about a year ago

lagom zuoxingdong

30

374

mit

15

lagom: A PyTorch infrastructure for rapid prototyping of reinforcement learning algorithms.

Created 2017-12-21

703 commits to master branch, last one 5 years ago

tf_deep_rl_trader miroblog

64

248

unknown

13

Trading Environment(OpenAI Gym) + PPO(TensorForce)

ppo trading tensorflow tensorforce stock-market proximal-policy-optimization

Created 2018-08-25

8 commits to master branch, last one 6 years ago

RL_Matrix asieradzk

18

230

other

13

Deep Reinforcement Learning in C#

dqn ppo sac gail dotnet cartpole gail-ppo multi-agent deep-learning machine-learning multi-environment soft-actor-critic reinforcement-learning deep-reinforcement-learning proximal-policy-optimization reinforcement-learning-agent reinforcement-learning-algorithms multi-agent-reinforcement-learning reinforcement-learning-environments

Created 2023-08-15

94 commits to master branch, last one 12 days ago

torch-ac lcswillems

65

197

mit

7

Recurrent and multi-process PyTorch implementation of deep reinforcement Actor-Critic algorithms A2C and PPO

a2c a3c ppo pytorch minigrid recurrent actor-critic multi-process reward-shaping advantage-actor-critic reinforcement-learning recurrent-neural-networks deep-reinforcement-learning proximal-policy-optimization

Created 2019-04-07

25 commits to master branch, last one 2 years ago

episodic-transformer-memory-ppo MarcoMeter

22

171

mit

3

Clean baseline implementation of PPO using an episodic TransformerXL memory

ppo trxl gtrxl pomdp pytorch on-policy memory-gym transformer actor-critic transformer-xl episodic-memory policy-gradient gated-transformer-xl deep-reinforcement-learning proximal-policy-optimization

Created 2022-05-04

9 commits to main branch, last one 9 months ago

imitation_learning CherryPieSexy

15

145

unknown

5

PyTorch implementation of some reinforcement learning algorithms: A2C, PPO, Behavioral Cloning from Observation (BCO), GAIL.

a2c ppo gail pytorch gail-ppo ppo-algo ppo-pytorch deep-learning recurrent-ppo policy-gradient imitation-learning advantage-actor-critic reinforcement-learning deep-reinforcement-learning proximal-policy-optimization

Created 2020-05-04

89 commits to master branch, last one 3 years ago

recurrent-ppo-truncated-bptt MarcoMeter

18

138

mit

3

Baseline implementation of recurrent PPO using truncated BPTT

gru ppo bptt lstm pomdp pytorch on-policy recurrent truncated recurrence actor-critic deep-learning policy-gradient recurrent-neural-networks deep-reinforcement-learning proximal-policy-optimization

Created 2021-06-07

13 commits to main branch, last one about a year ago

curiosity-driven-exploration-pytorch jcwleo

31

137

mit

2

Curiosity-driven Exploration by Self-supervised Prediction

icm pytorch curiosity-driven advantage-actor-critic reinforcement-learning proximal-policy-optimization

Created 2018-11-23

12 commits to master branch, last one 2 years ago

Contra-PPO-pytorch vietnh1009

31

136

unknown

9

Proximal Policy Optimization (PPO) algorithm for Contra

ai gym ppo ppo2 contra openai contra-nes deep-learning reinforcement-learning proximal-policy-optimization

Created 2019-09-06

3 commits to master branch, last one 4 years ago

carla-driving-rl-agent Luca96

25

121

mit

1

Code for the paper "Reinforced Curriculum Learning for Autonomous Driving in CARLA" (ICIP 2021)

deep-learning autonomous-driving reinforcement-learning carla-driving-simulator deep-reinforcement-learning proximal-policy-optimization

Created 2020-03-12

45 commits to master branch, last one 2 years ago

Reinforcement-Learning VachanVY

3

80

mit

5

PyTorch implementations of algorithms from "Reinforcement Learning: An Introduction by Sutton and Barto", along with various RL research papers.

dqn pytorch rl-book dqn-pytorch ppo-algorithm ddpg-algorithm policy-gradient sutton-barto-book actor-critic-pytorch actor-critic-algorithm reinforcement-learning artificial-intelligence deep-reinforcement-learning proximal-policy-optimization soft-actor-critic-continuous policy-gradient-with-baseline deep-deterministic-policy-gradient reinforcement-learning-an-introduction

Created 2024-09-05

93 commits to main branch, last one 26 days ago

ReinforcementLearning Phoenix-Shen

15

73

unknown

1

强化学习算法库，包含了目前主流的强化学习算法(Value based and Policy based)的代码，代码都经过调试并可以运行

dppo pytorch algorithms td3-pytorch ddpg-pytorch policy-gradient qlearning-algorithm actor-critic-algorithm reinforcement-learning deep-qlearning-algorithm deep-reinforcement-learning proximal-policy-optimization prioritized-experience-replay

Created 2021-12-01

193 commits to main branch, last one about a year ago

ppo lucidrains

8

70

mit

3

An implementation of PPO in Pytorch

reinforcement-learning artificial-intelligence proximal-policy-optimization

Created 2020-09-27

61 commits to master branch, last one about a month ago

ProtoRL philtabor

5

66

mit

1

A Torch Based RL Framework for Rapid Prototyping of Research Papers

dqn ppo sac td3 ddpg dqn-pytorch dueling-dqn ppo-pytorch sac-pytorch td3-pytorch actor-critic ddpg-pytorch dueling-ddqn soft-actor-critic dueling-dqn-pytorch dueling-network-architecture proximal-policy-optimization twin-delayed-policy-gradient prioritized-experience-replay

Created 2023-04-10

108 commits to master branch, last one 3 months ago

Hospitalbot-Path-Planning TommasoVandermeer

16

64

unknown

2

This repository contains an application using ROS2 Humble, Gazebo, OpenAI Gym and Stable Baselines3 to train reinforcement learning agents for a path planning problem.

ros gazebo robotics ros2-foxy openai-gym ros2-humble path-planning motion-planning gazebo-simulator stable-baselines3 reinforcement-learning proximal-policy-optimization

Created 2023-02-07

64 commits to humble branch, last one about a year ago

ppo_jax bmazoure

4

54

unknown

1

Jax implementation of Proximal Policy Optimization (PPO) specifically tuned for Procgen, with benchmarked results and saved model weights on all environments.

gym ppo procgen deep-learning machine-learning reinforcement-learning proximal-policy-optimization

Created 2021-09-03

12 commits to main branch, last one 2 years ago

TraderNet-CRv2 kochlisGit

10

33

unknown

3

TraderNet-CRv2 - Combining Deep Reinforcement Learning with Technical Analysis and Trend Monitoring on Cryptocurrency Markets

Created 2022-12-29

5 commits to main branch, last one about a year ago

MapleAITrainer GrahamMThomas

0

31

unknown

3

Uses screen captures, OCR, and Reinforcement Learning to optimize training on a specific map in Maplestory

ai bot python maplestory deep-learning computer-vision proximal-policy-optimization

Created 2023-07-10

6 commits to main branch, last one about a year ago

3D-Driving-AI-PPO fredrikcollyer

5

30

unknown

1

🚗 3D web app that combines Proximal Policy Optimization with Three.js, enabling users to directly interact with or train AI models on a virtual racetrack.

ai three-js proximal-policy-optimization

Created 2023-09-21

103 commits to main branch, last one 2 months ago

qdx jolle-ag

8

29

mit

3

Quantum error correction code AI-discovery with Jax

jax gpu-computing stabilizer-code quantum-circuits clifford-circuits clifford-simulator reinforcement-learning quantum-error-correction proximal-policy-optimization

Created 2024-02-23

18 commits to main branch, last one 3 months ago