BlendServe
-
聊聊大模型推理系統(tǒng)之 BlendServe:通過資源感知批處理策略,最大化硬件資源利用率和推理吞吐量
作者:InternLM、Qwen 等 LLM 全文約 2600 字,預(yù)計閱讀 7 分鐘 近年來,大型語言模型(LLM)的廣泛應(yīng)用推動了推理服務(wù)系統(tǒng)的不斷優(yōu)化。然而,在離線批量推理場景中,如何平衡計算資源利用效率和性能仍是一個亟待解決的問題