When

WhenceFade

https://mufan.me

WhenMelancholy

AI & ML interests

Generative Models.

Recent Activity

upvoted a paper 10 days ago

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

updated a dataset about 2 months ago

WhenceFade/dataset-mix-cached

upvoted an article 4 months ago

Open-R1: a fully open reproduction of DeepSeek-R1

View all activity

Organizations

upvoted a paper 10 days ago

Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

Paper • 2512.23447 • Published 12 days ago • 93

updated a dataset about 2 months ago

WhenceFade/dataset-mix-cached

Updated Feb 25, 2025 • 1

upvoted an article 4 months ago

Article

Open-R1: a fully open reproduction of DeepSeek-R1

Jan 28, 2025

•

887

upvoted a paper 5 months ago

Complex Logical Instruction Generation

Paper • 2508.09125 • Published Aug 12, 2025 • 40

upvoted a paper 6 months ago

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Paper • 2507.10532 • Published Jul 14, 2025 • 89

liked a dataset 6 months ago

Open-Orca/OpenOrca

Viewer • Updated Feb 19, 2025 • 2.94M • 11.1k • 1.48k

updated 2 models 7 months ago

WhenceFade/0604_key_cache_qwen3_8b_new

Text Generation • 8B • Updated Jun 5, 2025 • 2

WhenceFade/0604_key_cache_qwen3_8b

Text Generation • 8B • Updated Jun 5, 2025 • 1

published 2 models 7 months ago

WhenceFade/0604_key_cache_qwen3_8b_new

Text Generation • 8B • Updated Jun 5, 2025 • 2

WhenceFade/0604_key_cache_qwen3_8b

Text Generation • 8B • Updated Jun 5, 2025 • 1

updated a dataset 7 months ago

WhenceFade/0604_key_cache_dynamic_qwen3

Viewer • Updated Jun 4, 2025 • 1.57M • 11 • 1

published a dataset 7 months ago

WhenceFade/0604_key_cache_dynamic_qwen3

Viewer • Updated Jun 4, 2025 • 1.57M • 11 • 1

updated a dataset 7 months ago

WhenceFade/0604_key_cache_dynamic_qwen

Viewer • Updated Jun 4, 2025 • 1.57M • 11

published a dataset 7 months ago

WhenceFade/0604_key_cache_dynamic_qwen

Viewer • Updated Jun 4, 2025 • 1.57M • 11

updated a dataset 7 months ago

WhenceFade/0601_key_cache_dynamic_olmoe

Viewer • Updated Jun 2, 2025 • 1.57M • 25

published a dataset 7 months ago

WhenceFade/0601_key_cache_dynamic_olmoe

Viewer • Updated Jun 2, 2025 • 1.57M • 25

updated a dataset 8 months ago

WhenceFade/0529_key_cache_dynamic_olmoe

Viewer • Updated May 29, 2025 • 1.52M • 19

published a dataset 8 months ago

WhenceFade/0529_key_cache_dynamic_olmoe

Viewer • Updated May 29, 2025 • 1.52M • 19

updated a dataset 8 months ago

WhenceFade/0528_key_cache_dynamic_olmoe

Viewer • Updated May 29, 2025 • 1.52M • 11

published a dataset 8 months ago

WhenceFade/0528_key_cache_dynamic_olmoe

Viewer • Updated May 29, 2025 • 1.52M • 11

When

AI & ML interests

Recent Activity

Organizations

WhenceFade's activity

Open-R1: a fully open reproduction of DeepSeek-R1