Publications

4 results for Yue Zhu

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
- - Pol G. Recasens
  - Ferran Agullo
  - et al.
- 2025
- CLOUD 2025
Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- - Yue Zhu
  - Hao Yu
  - et al.
- 2025
- CLOUD 2025
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroMLSys 2024
Characterizing Training Performance and Energy for Foundation Models and Image Classifiers on Multi-Instance GPUs
- - Connor Espenshade
  - Rachel Peng
  - et al.
- 2024
- EuroMLSys 2024