Jaein Jang

AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners

Self-Taught Reasoners (STaR), synonymously known as Rejection sampling Fine-Tuning (RFT), is an integral part of the training pipeline of self-improving reasoning Language Models …

woosung-koh

• May 22, 2025 • 1 min read

MARL

FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL

Multi-agent reinforcement learning has demonstrated significant potential in addressing complex cooperative tasks across various real-world applications. However, existing MARL …

woosung-koh

• Oct 11, 2024 • 1 min read

No results found

Jaein Jang

AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners

FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL