#

policy-gradient

Here are 410 public repositories matching this topic...

MarioFiorino / Tutorial-Reinforcement-Learning-ITA-Python

In questa repository una collezione di tutorial sulle basi del Reinforcement Learning, sviluppati in Python, interamente in italiano.

reinforcement-learning openai-gym q-learning policy-gradient sarsa ita tensorflow2 tutorial-italiano off-policy-monte-carlo programmazione-dinamica teoria-controllo-ottimale fondamenti-teorici-rl on-policy-first-visit-monte-carlo-control n-step-td semi-gradient-one-step-sarsa gradient-monte-carlo-target-control

Updated Jun 3, 2024
Jupyter Notebook

WorldEditor50 / snakeAI

testing MLP, DQN, PPO, SAC, policy-gradient by snake

reinforcement-learning lstm dqn policy-gradient sac ppo snakeai

Updated Jun 2, 2024
C++

datawhalechina / easy-rl

强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/

reinforcement-learning deep-reinforcement-learning q-learning dqn policy-gradient sarsa a3c ddpg imitation-learning double-dqn dueling-dqn ppo td3 easy-rl

Updated Jun 2, 2024
Jupyter Notebook

Allenpandas / Reinforcement-Learning-Papers

📚 List of Top-tier Conference Papers on Reinforcement Learning (RL)，including: NeurIPS, ICML, AAAI, IJCAI, AAMAS, ICLR, ICRA, etc.

reinforcement-learning deep-reinforcement-learning q-learning artificial-intelligence dqn policy-gradient imitation-learning aaai ijcai reinforcement-learning-papers hierarchical-reinforcement-learning icml multi-agent-reinforcement-learning neurips meta-reinforcement-learning offline-reinforcement-learning rl-papers reinforcement-learning-conferences reinforcement-learning-paper reinforcement-learning-conferences-papers

Updated May 30, 2024

TomGoesGitHub / Spinning-Up-in-Reinforcement-Learning

Several RL-agents are tested on classical environments and benchmarked against their stable-baselines implementation.

reinforcement-learning q-learning policy-gradient markov-decision-processes actor-critic

Updated May 25, 2024
Python

oliverc1623 / DRIVE-Sim

A PyTorch-based framework to conduct deep reinforcement learning research in multiple autonomous vehicle simulators

simulator reinforcement-learning neural-networks policy-gradient autonomous-vehicles

Updated May 25, 2024
Jupyter Notebook

tianshou

thu-ml / tianshou

An elegant PyTorch deep reinforcement learning library.

pytorch dqn policy-gradient rl cql atari ddpg imitation-learning sac drl npg double-dqn trpo mujoco ppo a2c td3 bcq transferlab

Updated May 23, 2024
Python

callmespring / RL-short-course

Reinforcement Learning Short Course

reinforcement-learning q-learning ridesharing policy-gradient dynamic-programming deep-q-network markov-decision-processes policy-iteration value-iteration monte-carlo-methods temporal-differencing-learning model-based-rl policy-based-method fitted-q-iteration off-policy-evaluation offline-rl order-dispatch-recommendation

Updated May 23, 2024
Jupyter Notebook

CodeName-Detective / Prompt-to-Song-Generation-using-Large-Language-Models

This project uses LLMs to generate music from text by understanding prompts, creating lyrics, determining genre, and composing melodies. It harnesses LLM capabilities to create songs based on text inputs through a multi-step approach.

natural-language-processing deep-learning transformers deep-reinforcement-learning policy-gradient genre-classification seq-to-seq llms rlhf flan-t5 llama3

Updated May 21, 2024
Jupyter Notebook

CodeName-Detective / A2C-Exploring-OpenAI-Gym-Environments-and-Enhancing-Actor-Critic-Algorithms-for-Optimal-Performance

This project provides a comprehensive understanding of reinforcement learning, focusing on Actor Critic Algorithms. It involves exploring the OpenAI Gym library, implementing the A2C algorithm from DeepMind's seminal paper, and enhancing the A2C algorithm for improved performance and stability.

reinforcement-learning deep-reinforcement-learning policy-gradient actor-critic a2c open-ai-gym

Updated May 21, 2024
Jupyter Notebook

MarcoMeter / episodic-transformer-memory-ppo

Clean baseline implementation of PPO using an episodic TransformerXL memory

deep-reinforcement-learning pytorch transformer policy-gradient pomdp actor-critic proximal-policy-optimization ppo on-policy episodic-memory transformer-xl gtrxl trxl gated-transformer-xl memory-gym

Updated May 13, 2024
Python

markhliu / AlphaGoSimplified

Book repository for AlphaGo Simplified (CRC Press 2024). Implement ideas behind Deep Blue (rule-based AI) and AlphaGo (rule-based AI + Deep Learning) in three simple games: Last Coin Standing, Tic Tac Toe, and Connect Four.

machine-learning deep-neural-networks reinforcement-learning ai deep-learning deep-reinforcement-learning policy-gradient alphago actor-critic rule-based alphazero

Updated May 13, 2024
Jupyter Notebook

salesforce / MultiHopKG

Multi-hop knowledge graph reasoning learned via policy gradient with reward shaping and action dropout

reinforcement-learning pytorch knowledge-graph policy-gradient reward-shaping action-dropout multi-hop-reasoning

Updated May 3, 2024
Jupyter Notebook

VinF / deer

DEEp Reinforcement learning framework

deep-reinforcement-learning q-learning policy-gradient

Updated May 1, 2024
Python

MarcoMeter / recurrent-ppo-truncated-bptt

Baseline implementation of recurrent PPO using truncated BPTT

deep-learning deep-reinforcement-learning pytorch recurrent-neural-networks lstm gru policy-gradient recurrence recurrent pomdp actor-critic truncated proximal-policy-optimization ppo on-policy bptt

Updated Apr 28, 2024
Jupyter Notebook

jihoonerd / rl-maze

Simple maze solver by reinforcement learning

tutorial reinforcement-learning maze q-learning policy-gradient sarsa reinforce

Updated Apr 27, 2024
Python

HandyRL

DeNA / HandyRL

HandyRL is a handy and simple framework based on Python and PyTorch for distributed reinforcement learning that is applicable to your own environments.

machine-learning games reinforcement-learning deep-learning pytorch policy-gradient distributed-training

Updated Apr 26, 2024
Python

qlan3 / Jaxplorer

Jaxplorer is a Jax reinforcement learning (RL) framework for exploring new ideas.

reinforcement-learning deep-reinforcement-learning dqn policy-gradient reinforcement-learning-algorithms ddpg sac gymnasium ddqn mujoco naf ppo jax td3

Updated Apr 12, 2024
Python

tsangwpx / ml2048

Yet another 2048 in reinforcement learning

machine-learning reinforcement-learning deep-learning q-learning pytorch artificial-intelligence policy-gradient deeplearning 2048 actor-critic 2048-game ppo

Updated Apr 2, 2024
Jupyter Notebook

MorvanZhou / Reinforcement-learning-with-tensorflow

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Updated Mar 31, 2024
Python

Improve this page

Add a description, image, and links to the policy-gradient topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the policy-gradient topic, visit your repo's landing page and select "manage topics."