AI 領域精選文章翻譯
by Jon Markman (Forbes / PrismML)

原文連結: PrismML Introduces The First Commercially Viable 1-Bit LLM
人工智慧的部署成本即將發生翻天覆地的變化。由加州理工學院(Caltech)數學家團隊創立的 PrismML 公司,正式從隱身模式(Stealth Mode)浮出水面,並發布了全球首款商用級 1-bit 大型語言模型系列——Bonsai。
其旗艦模型 Bonsai 8B 在擁有 82 億參數的情況下,僅佔用 1.15 GB 的記憶體空間。這意味著一個原本需要昂貴伺服器才能運行的強大模型,現在可以完美運行在任何配備 GPU 的消費級裝置上。
傳統的 AI 模型權重通常使用 FP16(16 位元浮點數)或更高精度表示,這導致了巨大的記憶體頻寬需求與計算能耗。而 Bonsai 採用了原生 1-bit(三進制)架構,將所有權重限制在 -1、0 與 +1 三個數值內。
這種「三進制量化」帶來的優勢是革命性的:
在實際測試中,Bonsai 8B 的表現令人驚艷。在 Apple M4 Pro Mac 上,其推理速度達到 136 tokens/s;在配備 RTX 4090 的電腦上更飆升至 440 tokens/s。
最引人注目的是在行動裝置上的表現。iPhone 17 Pro Max 能夠以 44 tokens/s 的速度運行 Bonsai 8B。以往這類規模的模型根本無法塞進智慧型手機的有限記憶體中,而現在,邊緣運算裝置不再需要依賴雲端 API,即可實現高品質、低延遲的離線 AI 體驗。
PrismML 提出了一個新的衡量標準——「智慧密度」(Intelligence Density),即每 GB 模型大小所能提供的智慧水準。根據 PrismML 的評測,Bonsai 8B 的智慧密度得分為 1.06/GB,而傳統的高效模型 Qwen3 8B 僅為 0.10/GB。這顯示了在有限的硬體資源下,1-bit 架構能釋放遠超傳統結構的智慧能量。
Khosla Ventures 創辦人 Vinod Khosla 對此評價道:「這不是一個小的迭代,而是一個重大的技術與數學突破。AI 的未來將不再取決於誰能建造最大的資料中心,而是誰能提供單位能源與成本下最高的智慧。」
PrismML 表示,目前的主流硬體(如現有的 GPU 與 NPU)並非針對 1-bit 推理設計,現在的效能提升主要來自記憶體讀取的減少。如果未來硬體能在底層架構上原生支援 1-bit 運算,AI 的效率預計將再提升一個數量級。
目前,Bonsai 系列模型(8B、4B、1.7B)已在 Hugging Face 開放下載,採 Apache 2.0 協議。開發者與研究人員現在即可在 CUDA、Metal(Mac/iPhone)及 Android 等平台上部署這些超輕量化的強大模型。
Bonsai 的出現標誌著 AI 民主化的重要里程碑。當模型體積不再是瓶頸,原本受限於電力與硬體的機器人、穿戴式裝置及物聯網(IoT)設備,將能具備即時、自主的決策能力。
對於企業而言,這意味著大幅降低部署 AI 的基礎設施成本。1-bit 模型不僅降低了對高端 H100 GPU 的依賴,也讓私有化部署變得更為可行且安全,因為敏感數據不再需要離開終端裝置。接下來值得關注的是硬體廠商(如 NVIDIA、Apple、Qualcomm)是否會跟進推出專屬的 1-bit 計算核心,這將真正引爆邊緣 AI 的全面普及。