Kai Zuberbühler

kaizuberbuehler

k-zubi

AI & ML interests

language models, agents, image generation, music generation

Recent Activity

updated a collection about 1 hour ago

Reasoning

upvoted a paper about 1 hour ago

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

updated a collection about 3 hours ago

LM Training

View all activity

Organizations

None yet

kaizuberbuehler's activity

upvoted a paper about 1 hour ago

On the Emergence of Thinking in LLMs I: Searching for the Right Intuition

Paper • 2502.06773 • Published 1 day ago • 1

upvoted 3 papers about 3 hours ago

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Paper • 2501.17161 • Published 14 days ago • 102

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Paper • 2502.06703 • Published 1 day ago • 66

Demystifying Long Chain-of-Thought Reasoning in LLMs

Paper • 2502.03373 • Published 6 days ago • 49

upvoted an article 1 day ago

Article

Open R1: Update #2

and 6 others •

1 day ago

• 119

upvoted a paper 8 days ago

s1: Simple test-time scaling

Paper • 2501.19393 • Published 11 days ago • 99

upvoted 2 papers 19 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published 21 days ago • 91

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 20 days ago • 315

upvoted a paper 20 days ago

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Paper • 2501.12326 • Published 21 days ago • 49

upvoted 3 papers 21 days ago

PaSa: An LLM Agent for Comprehensive Academic Paper Search

Paper • 2501.10120 • Published 26 days ago • 43

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning

Paper • 2411.03817 • Published Nov 6, 2024 • 1

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Paper • 2406.11896 • Published Jun 14, 2024 • 20

upvoted a collection 21 days ago

DeepSeek-R1

Collection

8 items • Updated 22 days ago • 472

upvoted 2 papers 24 days ago

FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper • 2501.09747 • Published 26 days ago • 23

Do generative video models learn physical principles from watching videos?

Paper • 2501.09038 • Published 28 days ago • 32

upvoted 5 papers 25 days ago

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

Paper • 2501.09686 • Published 26 days ago • 36