RL+LLM Wiki

community

AI & ML interests

None defined yet.

Recent Activity

lvwerra new activity 3 minutes ago

rl-llm-wiki/knowledge-base:source: arxiv:1502.05477 — Trust Region Policy Optimization (TRPO)

lvwerra new activity 3 minutes ago

rl-llm-wiki/knowledge-base:source: arxiv:2203.02155 - InstructGPT

thomwolf new activity 3 minutes ago

rl-llm-wiki/knowledge-base:source: arxiv:2203.02155 - InstructGPT

View all activity

rl-llm-wiki 's buckets 6

rl-llm-wiki/rl-main-bucket

rl-llm-wiki/rl-multi-crazy-cat

rl-llm-wiki/rl-trace-reinforcer

rl-llm-wiki/rl-knowledge-tracer

rl-llm-wiki/rl-the-first-one

rl-llm-wiki/rl-merge-bot