Publications

3 results for Zhang-Wei Hong

RL Tango: Reinforcing Generator and Verifier Together for Language Reasoning
- - Kaiwen Zha
  - Zhengqi Gao
  - et al.
- 2025
- NeurIPS 2025
Generating Stable Materials with Large Language Model Reasoning and Reinforcement Learning
- - Zhang-Wei Hong
  - Nofit Segal
  - et al.
- 2025
- NeurIPS 2025
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search
- - Maohao Shen
  - Guangtao Zeng
  - et al.
- 2025
- ICML 2025