Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

2,970

Full-text search

Active filters: ppo

elusivephantasm/ppo-cr-LunarLander-v2

Reinforcement Learning • Updated 16 days ago

elusivephantasm/ppo-cr-LunarLander-v2-unit8_part1

Reinforcement Learning • Updated 16 days ago

aryannzzz/ppo-lunarlander-scratch

Reinforcement Learning • Updated 15 days ago

MeowFR/llama-humanizer-grpo-v9-agents

Reinforcement Learning • Updated 14 days ago • 28

Michellemingxuan/ppo-scratch-LunarLander-v3

Reinforcement Learning • Updated 14 days ago

KnoY/LunarLander-v2-ppo

Reinforcement Learning • Updated 13 days ago

mohamednabil500/ppo-space-invaders-10M-expert

Reinforcement Learning • Updated 12 days ago

thisusernameisnotavailablehee/ppo-huggy

Reinforcement Learning • Updated 12 days ago • 16

Tasfiya025/Neuroscience_EEG_Epilepsy_Tagger

Reinforcement Learning • Updated 11 days ago • 12

Haxxsh/micppo-LunarLander-v2-unit8-part1

Reinforcement Learning • Updated 10 days ago

cahlen/minecraft-voyager-gathering-230k

Reinforcement Learning • Updated 7 days ago • 19

Emptier8126/ppo-LunarLander-v3

Reinforcement Learning • Updated 6 days ago

ketencrypt10n/ppo-lunar-lander

Reinforcement Learning • Updated 5 days ago • 11

seynath/LunarLander-v2

Reinforcement Learning • Updated 5 days ago • 9

phuongntc/llama32_1b_ppo_noSFT_multievalsumviet2_penalty

Reinforcement Learning • Updated 5 days ago

TensorAeroSpace/ppo-b747-step-response

Reinforcement Learning • Updated 4 days ago • 10

rashidi1saeed/ppo-LunarLander-v3-cleanRL

Reinforcement Learning • Updated 4 days ago

rashidi1saeed/ppo-LunarLander-v2-cleanRL

Reinforcement Learning • Updated 4 days ago

kostas-c/LunarLander-v2

Reinforcement Learning • Updated 4 days ago

bhxvxsh/recipeai-ultra-performance

Reinforcement Learning • Updated 3 days ago • 39

johnx4321/LLV2

Reinforcement Learning • Updated 3 days ago

mmichiels13/ppo-CartPole-v1

Reinforcement Learning • Updated 3 days ago

mmichiels13/ppo-scratch-LunarLander-v2

Reinforcement Learning • Updated 3 days ago

LeonardoMdSA/PPO-CleanRL-LunarLander-v2

Reinforcement Learning • Updated 2 days ago

katharsis/carv1-ppo

Reinforcement Learning • Updated 2 days ago • 87

ostap-khm/LunarLanderPPO

Reinforcement Learning • Updated about 6 hours ago

mykor/mmBERT-base-GGUF

0.3B • Updated about 19 hours ago

mykor/mmBERT-small-GGUF

0.1B • Updated about 18 hours ago

anonymousML123/llama3-8b-pku-PPO-NoInstruct-SFT-NoInstruct

Updated about 16 hours ago

anonymousML123/llama3-8b-pku-PPO-Instruct-SFT-Instruct

Updated about 16 hours ago