Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

2,972

Full-text search

Active filters: ppo

MattBou00/SingleLR001-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR001-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR001-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR001-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR001-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR001

Reinforcement Learning • 1B • Updated Nov 21, 2025 • 3

MattBou00/SingleLR00001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 4

MattBou00/SequentialLR00001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 4

MattBou00/SequentialLR001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 5

MattBou00/SequentialLR001_2000samples-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 5

MattBou00/SequentialLR001_2000samples-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 4

MattBou00/SequentialLR001_2000samples_R1-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 4

MattBou00/SequentialLR001_2000samples_R1-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 4

kazuyamaa/Qwen3-4B-PPO-3000data-v1

Reinforcement Learning • Updated Nov 23, 2025 • 5

chenshuguang/PPO-LunarLander-v2

Reinforcement Learning • Updated 5 days ago • 15

Deinigu/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 26, 2025

Deinigu/LunarLander-v2

Reinforcement Learning • Updated Nov 26, 2025

TzJ2006/JokeGPT-Model

Updated Nov 29, 2025 • 10 • 1

KayvunNadi/ppo-LunarLander-v3

Reinforcement Learning • Updated Nov 28, 2025

heesup/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 29, 2025

heesup/ppo_py-LunarLander-v2

Reinforcement Learning • Updated Nov 29, 2025

mahir05/ppo-CartPole-v1-02

Reinforcement Learning • Updated Nov 29, 2025

dariakryvosheieva/video-prompt-enhancer

Reinforcement Learning • Updated 28 days ago • 13

ucrelnlp/PyMUSAS-Neural-Multilingual-Small-BEM

Updated Dec 3, 2025 • 78

ucrelnlp/PyMUSAS-Neural-Multilingual-Base-BEM

Updated Dec 3, 2025 • 70

KB8407/KoGPT2-PPO

Reinforcement Learning • 0.1B • Updated 22 days ago • 22

chauvanphuoc/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 5, 2025

LBK95/Llama-3.2-1B-hf_PPO-LookAhead-5_V1_Second

Updated 29 days ago

Guardrium/spicy-motivator-ppo

Reinforcement Learning • Updated 29 days ago • 143

wangbadao/ppo-CartPole-v1

Reinforcement Learning • Updated 29 days ago