AI Articles

AI 領域精選文章翻譯

View the Project on GitHub Kumazan/ai-articles

2 April 2026

vLLM 2026:驅動生產級 AI 大規模部署的開源 LLM 推論引擎

by Sarah Chen

AI News · 2026-04-02

原文連結: vLLM 2026: The Open Source LLM Inference Engine Powering Production AI at Scale

摘要

· · ·

從 Berkeley 研究成果到生產標準

vLLM 的故事始於 2023 年,當時 UC Berkeley 的研究人員發表了奠定其理論基礎的學術論文。這篇在 SOSP 2023 發表的論文引入了 PagedAttention——一種受作業系統虛擬記憶體與分頁技術啟發的注意力演算法。這項創新解決了 LLM 推論中最棘手的挑戰之一:自回歸解碼(autoregressive decoding)過程中大量消耗 GPU 資源的 KV cache 記憶體管理問題。

根據 vLLM 官方說明,初次發布時即實現了比 HuggingFace Transformers 高達 24 倍的吞吐量,並比當時最先進的系統 FasterTransformer 與 Orca 高出 3.5 倍。這樣的效能優勢在序列較長、模型較大、解碼演算法較複雜的情境下更加顯著。這一戲劇性的效能突破吸引了 AI 社群的廣泛關注,vLLM 迅速成為企業規模化部署 LLM 的預設選擇。

LMSYS 的部署案例提供了一個具說服力的佐證。根據 vLLM 文件記載,該框架被部署於 Chatbot Arena 與 Vicuna Demo,每日平均處理 30,000 次請求,峰值達 60,000 次。此次部署充分展現了 vLLM 在生產環境中的穩健性,並將服務所需的 GPU 數量減少了 50%。LMSYS 的成功案例進一步推動了更多組織採用 vLLM 進行自身的生產部署,形成加速普及的飛輪效應。

技術突破:PagedAttention

理解 vLLM,必先理解 PagedAttention——這個讓 vLLM 有別於其他推論系統的核心創新。根據研究論文,關鍵洞察在於:LLM 推論中的 KV cache 記憶體規模龐大、動態變化且難以預測。僅 LLaMA-13B 中的單一序列就可能需要高達 1.7GB 的 KV cache,在多個並發請求之間高效管理這些記憶體極為困難,因為 cache 大小取決於序列長度,而序列長度差異懸殊。

現有系統由於記憶體碎片化與過度預留,浪費了 60-80% 的 KV cache 記憶體,這種浪費直接限制了批次大小,進而壓縮了可達成的吞吐量。PagedAttention 的解法是允許連續的 key 和 value 儲存在非連續的記憶體空間中,將 KV cache 劃分為可獨立管理的 block。

Block table 設計將非連續的邏輯 block 映射到實體 block,其原理與作業系統中虛擬記憶體的運作方式高度相似。根據 vLLM 文件,這種方式將記憶體浪費控制在 4% 以下,接近理論最優值。記憶體利用率的提升直接轉化為更大的批次大小與更佳的 GPU 利用率,這正是 vLLM 實現吞吐量飛躍的根本原因。

PagedAttention 同時也為複雜的採樣演算法提供了高效的記憶體共享機制。在並行採樣(parallel sampling)情境下,多個輸出序列從同一 prompt 生成,prompt 的運算與記憶體可以共享。Block table 的設計天然支援這一模式:透過將不同的邏輯 block 映射到同一實體 block,配合引用計數確保透過 copy-on-write 機制實現安全共享。根據論文數據,這種方式在並行採樣與 beam search 中可將記憶體使用量降低高達 55%。

Model Runner V2:2026 年的架構全面翻新

2026 年 3 月,vLLM 迎來重要里程碑:Model Runner V2(MRV2)正式發布,這是對 vLLM model runner 的全面重寫實作。根據官方說明,MRV2 在不改變任何 API 的前提下,提供了更簡潔、更模組化、更高效的執行核心,解決了 vLLM 從研究項目演變為生產系統過程中所積累的技術債務。

MRV2 的設計建立在三項核心原則之上。第一,模組化:將模型特定的邏輯與通用執行路徑隔離。第二,GPU 原生設計:將 CPU 端的簿記工作(bookkeeping)轉移到 GPU 執行。第三,非同步優先設計:將 CPU/GPU 重疊執行視為根本約束,而非事後補強。

根據 vLLM 團隊的數據,MRV2 透過將輸入準備工作轉移至 GPU,在小型模型上實現了 56% 的吞吐量提升。在 speculative decoding 場景中,MRV2 透過消除 CPU-GPU 同步點,降低了 6.3% 的每輸出 token 時間(TPOT)。這一改善源自零同步設計,允許 GPU 端的準備 kernel 直接消耗 rejection sampling 的結果,無需等待 CPU 介入。

模組化重構同時解決了使用者與貢獻者長期反映的一大問題。根據官方部落格,原有的 runner 已膨脹為單一超過 6,700 行的檔案。MRV2 將其拆分為職責明確的較小檔案,最大的單一檔案現在控制在 1,300 行以內。新的 ModelState 抽象層定義了模型特定邏輯的介面,涵蓋多模態嵌入、額外模型輸入、注意力元資料以及 CUDA graph 捕獲。

生產功能與生態系整合

vLLM 已超越其學術起源,演進為功能完整的生產推論引擎。引擎支援卓越的服務吞吐量,透過 PagedAttention 高效管理注意力的 key 和 value 記憶體,提供連續批次(continuous batching)處理進入請求,以及透過 CUDA/HIP graph 實現的快速模型執行,同時支援 GPTQ、AWQ、AutoRound、INT4、INT8 和 FP8 等多種量化格式。

在模型相容性方面,vLLM 與 HuggingFace 主流模型無縫整合,支援 LLaMA 等 transformer 架構 LLM、Mixtral 和 DeepSeek-V2/V3 等混合專家(MoE)LLM、E5-Mistral 等嵌入模型,以及 LLaVA 等多模態 LLM。這種廣泛的模型支援意味著組織可以在無需重新訓練或格式轉換的前提下切換至 vLLM。

分散式推論方面,vLLM 透過張量並行(tensor parallelism)、流水線並行(pipeline parallelism)、資料並行(data parallelism)和專家並行(expert parallelism)提供完整支援。硬體相容性方面,vLLM 支援 NVIDIA GPU、AMD CPU 與 GPU、Intel CPU 與 GPU、PowerPC CPU、ARM CPU 和 TPU,並透過硬體插件支援 Intel Gaudi、IBM Spyre 和 Huawei Ascend。

Speculative decoding 是另一項生產關鍵功能。P-EAGLE 實作提供了具備並行 speculative decoding 的更快 LLM 推論:使用 draft 模型預測多個前置 token,再由 target 模型並行驗證,從而減少所需的序列推論輪次。

Python 作為核心介面

Python 依然是 vLLM 的主要介面,這與其根植於 Python 主導的機器學習生態系的背景一脈相承。根據文件說明,vLLM 可透過 Python API 用於離線推論(offline inference)和線上服務(online serving)兩種情境,簡潔的使用方式讓已熟悉 Python 機器學習工作流程的團隊能夠快速上手。

引擎同時提供可透過單一指令啟動的 OpenAI 相容 API 伺服器,組織可使用標準 OpenAI API 格式進行查詢,實現對現有使用閉源 API 的應用程式的直接替換(drop-in replacement)。這種向後相容性對企業採用至關重要,大幅降低了從商業 API 遷移至自托管推論服務的技術門檻。

推論服務競爭格局

vLLM 在競爭激烈的推論服務市場中確立了開源領導地位。根據業界基準測試,vLLM 在吞吐量上持續提供比簡易實作方式高 2-4 倍的優勢,對於追求成本效益的生產部署而言不可或缺。PagedAttention、連續批次處理與現代化架構的組合,使其成為建構生產 AI 系統的團隊的首選方案。

截至 2026 年 3 月,該專案已累計發布 88 個版本,在效能與模型支援方面持續改進,開發活力旺盛。vLLM 團隊持續為新世代硬體(包括 NVIDIA Blackwell 和 AMD Instinct)以及新出現的模型架構進行優化。MRV2 的推出充分展現了這個專案追求長期技術卓越、而非單純功能堆砌的決心。

對於建構生產 AI 系統的組織而言,vLLM 提供了關鍵的基礎設施元件。開源特性意味著團隊可以檢視、修改並回饋原始碼,在生產部署中建立真正的信任基礎。強大的社群與廣泛的商業採用確保了這個專案將持續演進,使其成為長期基礎設施投資的穩健選擇。

隨著 AI 從實驗走向生產,驅動推論的基礎設施與模型本身同等重要。vLLM 已確立其作為 LLM 推論開源標準的地位,提供生產系統所需的效能、靈活性與社群支撐。

· · ·

開源推論引擎的技術政治學:vLLM 崛起背後的深層矛盾

效能神話的選擇性敘事

vLLM 的行銷敘事以「比 HuggingFace Transformers 高 24 倍吞吐量」為核心論點,但這個數字有必要放在脈絡中檢視。HuggingFace Transformers 作為比較基準本身即是不公平的對照:該框架的設計目標從來不是生產推論的極致效能,而是研究靈活性與易用性。以同為生產導向的 TensorRT-LLM 或 DeepSpeed-Inference 作比較,vLLM 的優勢幅度將大幅收縮。

更值得注意的是,「高吞吐量」與「低延遲」往往相互競爭。PagedAttention 透過提升批次大小來優化吞吐量,但對於延遲敏感型應用(如即時對話介面),大批次帶來的排隊等待時間往往不可接受。文章對這一根本性取捨的著墨明顯不足,容易讓讀者形成 vLLM 在所有場景均優於替代方案的錯誤印象。

PagedAttention 的知識產權爭議

PagedAttention 以作業系統虛擬記憶體作為靈感的敘事,在技術社群中引發了一定程度的討論。批評者指出,分頁式記憶體管理的概念本身並非新創,NVIDIA 在 TensorRT 中早已存在類似的記憶體管理機制,只是未被冠以顯眼的命名。

這並不意味著 vLLM 的貢獻不值得肯定——將這項技術系統化並開源推廣確實具有重要意義。但這種命名優先(naming priority)策略在 AI 基礎設施領域已形成一種模式:先發布帶有響亮名稱的技術,再透過論文與社群效應確立話語權。在 open-source 生態中,技術本身的優劣固然重要,但「誰先定義問題並提出解法」的敘事能力同樣決定採用率。

MRV2 重構的隱性成本與社群代價

MRV2 的推出敘事強調了技術進步——56% 的吞吐量提升、從 6,700 行單一檔案拆分為模組化結構——但這場重構對下游生態的影響同樣值得關注。

vLLM 生態中存在大量基於原有 model runner 實作的第三方整合、自定義 attention backend、以及企業內部的 fork 版本。MRV2 雖宣稱「無 API 變更」,但內部架構的根本性重組意味著深度整合者需要相當的工程投入來進行適配。「無 API 變更」的承諾更接近公開介面的穩定性,而非實作細節的連續性。這種隱性的生態成本在官方敘事中往往被輕描淡寫。

硬體中立性宣言與現實之間的落差

文章列出了 vLLM 支援的長串硬體清單——NVIDIA、AMD、Intel、ARM、TPU、Gaudi、Spyre、Ascend——但支援深度存在顯著差異。NVIDIA CUDA 路徑是第一公民,享有最完整的優化與最及時的功能支援;其他硬體路徑多由各硬體廠商自行貢獻維護,品質參差不齊。

這種「硬體中立」的宣稱在商業競爭層面具有重要意義:它讓 vLLM 能夠爭取非 NVIDIA 陣營的採用者,但也製造了一種平等支援的假象。對於實際在 AMD ROCm 或 Intel GPU 上部署的組織,往往需要面對文件不足、功能缺口以及社群支援薄弱的現實。這一落差在採購決策層面可能造成相當的認知偏差。