Guo Dadi's picture

Guo Dadi

guodadi

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 5 days ago

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

upvoted a paper 13 days ago

Toward Scalable Terminal Task Synthesis via Skill Graphs

upvoted a paper about 1 month ago

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

View all activity

Organizations

None yet

upvoted a paper 5 days ago

CreativityBench: Evaluating Agent Creative Reasoning via Affordance-Based Tool Repurposing

Paper • 2605.02910 • Published 7 days ago • 21

upvoted a paper 13 days ago

Toward Scalable Terminal Task Synthesis via Skill Graphs

Paper • 2604.25727 • Published 15 days ago • 10

upvoted 2 papers about 1 month ago

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Paper • 2604.06628 • Published Apr 8 • 324

ATBench: A Diverse and Realistic Trajectory Benchmark for Long-Horizon Agent Safety

Paper • 2604.02022 • Published Apr 2 • 15

upvoted a paper 2 months ago

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

Paper • 2603.03202 • Published Mar 3 • 17

upvoted 2 papers 3 months ago

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Paper • 2602.14457 • Published Feb 16 • 29

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Paper • 2601.18491 • Published Jan 26 • 125

upvoted a collection 4 months ago

AgentDoG

A Diagnostic Guardrail Framework for AI Agent Safety and Security • 12 items • Updated about 17 hours ago • 109

upvoted a paper 4 months ago

NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems

Paper • 2601.11004 • Published Jan 16 • 30

upvoted a paper 5 months ago

PretrainZero: Reinforcement Active Pretraining

Paper • 2512.03442 • Published Dec 3, 2025 • 50

upvoted a paper 6 months ago

CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

Paper • 2511.02734 • Published Nov 4, 2025 • 22

upvoted a paper 10 months ago

Diversity-Enhanced Reasoning for Subjective Questions

Paper • 2507.20187 • Published Jul 27, 2025 • 26