Changpeng Yang

thkelper

https://gpt.dance

thkelper

AI & ML interests

Computer Vision, Large Language Model, Multi-omics

Recent Activity

upvoted a paper 3 days ago

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

upvoted a paper 10 days ago

Self-Distilled Agentic Reinforcement Learning

upvoted a paper 3 months ago

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

View all activity

Organizations

upvoted a paper 3 days ago

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

Paper • 2605.22177 • Published 4 days ago • 18

upvoted a paper 10 days ago

Self-Distilled Agentic Reinforcement Learning

Paper • 2605.15155 • Published 11 days ago • 109

upvoted a paper 3 months ago

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Paper • 2602.05843 • Published Feb 5 • 61

authored a paper 4 months ago

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Paper • 2601.22491 • Published Jan 30 • 12

upvoted 2 papers 4 months ago

SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

Paper • 2601.22491 • Published Jan 30 • 12

Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

Paper • 2601.20209 • Published Jan 28 • 23

upvoted 2 papers 5 months ago

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Paper • 2601.03872 • Published Jan 7 • 45

HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Paper • 2512.14052 • Published Dec 16, 2025 • 42

upvoted a paper 6 months ago

From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

Paper • 2512.02580 • Published Dec 2, 2025 • 28

upvoted a paper 7 months ago

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13, 2025 • 182

upvoted 2 papers 8 months ago

Reinforcement Learning on Pre-Training Data

Paper • 2509.19249 • Published Sep 23, 2025 • 67

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

Paper • 2509.18154 • Published Sep 16, 2025 • 60

upvoted a paper 12 months ago

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

Paper • 2505.15692 • Published May 21, 2025 • 14

published a model about 1 year ago

thkelper/Qwen2.5-1.5B-Open-R1-Distill

Updated Feb 25, 2025

published a model over 1 year ago

thkelper/DeepSeek-R1-Distill-Qwen-1.5B-GRPO

Updated Feb 25, 2025

Changpeng Yang

AI & ML interests

Recent Activity

Organizations

thkelper's activity