3 April 2026

PrismML 發布全球首款商用 1-Bit LLM：Bonsai 8B 讓 AI 模型縮小 14 倍、速度提升 8 倍

by Jon Markman (Forbes / PrismML)

Technical Breakthrough Open Source Edge AI

原文連結： PrismML Introduces The First Commercially Viable 1-Bit LLM

摘要

極致壓縮：Bonsai 8B 模型僅需 1.15GB 記憶體，較傳統 16-bit 模型縮小 14 倍，能輕鬆裝入智慧型手機。
原生 1-Bit 訓練：不同於事後量化，Bonsai 從零開始以 1-bit（三進制：-1, 0, +1）訓練，確保推理精度不失真。
性能飛躍：在 M4 Pro 晶片上可達每秒 136 tokens，在 iPhone 17 Pro Max 上亦有 44 tokens/s 的流暢表現。
能效革命：能耗僅為同級模型的 20%（1/5），大幅解決資料中心散熱與行動裝置續航力問題。
智慧密度突破：每 GB 記憶體所展現的智慧水準（Intelligence Density）較現有領先模型提升 10 倍。
全面開源：發布 8B、4B 及 1.7B 三種規模，採 Apache 2.0 協議，支援 CUDA、Metal 及 Android 平台。

· · ·

人工智慧的部署成本即將發生翻天覆地的變化。由加州理工學院（Caltech）數學家團隊創立的 PrismML 公司，正式從隱身模式（Stealth Mode）浮出水面，並發布了全球首款商用級 1-bit 大型語言模型系列——Bonsai。

其旗艦模型 Bonsai 8B 在擁有 82 億參數的情況下，僅佔用 1.15 GB 的記憶體空間。這意味著一個原本需要昂貴伺服器才能運行的強大模型，現在可以完美運行在任何配備 GPU 的消費級裝置上。

數學原理的革新：從浮點到三進制

傳統的 AI 模型權重通常使用 FP16（16 位元浮點數）或更高精度表示，這導致了巨大的記憶體頻寬需求與計算能耗。而 Bonsai 採用了原生 1-bit（三進制）架構，將所有權重限制在 -1、0 與 +1 三個數值內。

這種「三進制量化」帶來的優勢是革命性的：

消除乘法運算：在神經網路中，乘法運算是最消耗資源的部分。在 1-bit 架構下，乘以 0 即跳過（no-op），乘以 1 是恆等轉換，乘以 -1 僅需符號翻轉。這使得推理過程不再依賴昂貴的浮點運算。
內存需求驟減：模型體積從 Llama 3 8B 的 16GB 縮減至 1.15GB，壓縮率達 14 倍。

效能實測：iPhone 也能跑「重量級」AI

在實際測試中，Bonsai 8B 的表現令人驚艷。在 Apple M4 Pro Mac 上，其推理速度達到 136 tokens/s；在配備 RTX 4090 的電腦上更飆升至 440 tokens/s。

最引人注目的是在行動裝置上的表現。iPhone 17 Pro Max 能夠以 44 tokens/s 的速度運行 Bonsai 8B。以往這類規模的模型根本無法塞進智慧型手機的有限記憶體中，而現在，邊緣運算裝置不再需要依賴雲端 API，即可實現高品質、低延遲的離線 AI 體驗。

為什麼「智慧密度」是關鍵指標？

PrismML 提出了一個新的衡量標準——「智慧密度」（Intelligence Density），即每 GB 模型大小所能提供的智慧水準。根據 PrismML 的評測，Bonsai 8B 的智慧密度得分為 1.06/GB，而傳統的高效模型 Qwen3 8B 僅為 0.10/GB。這顯示了在有限的硬體資源下，1-bit 架構能釋放遠超傳統結構的智慧能量。

業界評價與未來展望

Khosla Ventures 創辦人 Vinod Khosla 對此評價道：「這不是一個小的迭代，而是一個重大的技術與數學突破。AI 的未來將不再取決於誰能建造最大的資料中心，而是誰能提供單位能源與成本下最高的智慧。」

PrismML 表示，目前的主流硬體（如現有的 GPU 與 NPU）並非針對 1-bit 推理設計，現在的效能提升主要來自記憶體讀取的減少。如果未來硬體能在底層架構上原生支援 1-bit 運算，AI 的效率預計將再提升一個數量級。

目前，Bonsai 系列模型（8B、4B、1.7B）已在 Hugging Face 開放下載，採 Apache 2.0 協議。開發者與研究人員現在即可在 CUDA、Metal（Mac/iPhone）及 Android 等平台上部署這些超輕量化的強大模型。

· · ·

未來觀察：邊緣運算的引爆點

Bonsai 的出現標誌著 AI 民主化的重要里程碑。當模型體積不再是瓶頸，原本受限於電力與硬體的機器人、穿戴式裝置及物聯網（IoT）設備，將能具備即時、自主的決策能力。

對於企業而言，這意味著大幅降低部署 AI 的基礎設施成本。1-bit 模型不僅降低了對高端 H100 GPU 的依賴，也讓私有化部署變得更為可行且安全，因為敏感數據不再需要離開終端裝置。接下來值得關注的是硬體廠商（如 NVIDIA、Apple、Qualcomm）是否會跟進推出專屬的 1-bit 計算核心，這將真正引爆邊緣 AI 的全面普及。