AI 領域精選文章翻譯
by OpenAI Research

原文連結: https://openai.com/index/our-approach-to-the-model-spec/
OpenAI 相信,AI 應該公平、安全,且能廣泛取得,讓更多人用它解決困難問題,在健康、科學、教育、工作和日常生活中創造機會。民主化的 AI 普及,是他們認為最正確的前進道路——不是讓少數人壟斷 AI 的好處或控制權,而是讓更多人能取得、理解並參與塑造它。
這正是 OpenAI Model Spec 存在的核心原因。Model Spec 是 OpenAI 對模型行為的正式規範框架,定義了模型應如何遵從指令、解決衝突、尊重用戶自由,並在用戶每天提出的各式各樣問題中安全運作。更廣義地說,這是他們讓「預期模型行為」變得明確的嘗試——不只是埋在訓練流程裡,而是以一種用戶、開發者、研究者、政策制定者和廣大公眾都能真正閱讀、審視與辯論的形式呈現。
Model Spec 並不是在宣稱模型今天已經完美達到這些行為。許多方面它是描述性的,但同時也是一個目標——讓模型行為的方向更清晰,從而能夠訓練趨近它、評估它,並隨時間不斷改進。
這篇文章分享了 Model Spec 本文未收錄的背景故事,包括其背後的哲學與機制:它如何架構、為何做出這些架構選擇,以及如何撰寫、實作與演進。
Model Spec 以高層意圖為開頭:清楚說明他們在系統層面試圖優化什麼,以及為什麼。
前言釐清了三個目標:
重要的是,這個前言並非直接指令給模型。造福人類是 OpenAI 的目標,而不是他們希望模型自主追求的目標。他們希望模型遵循一條「指令鏈」——包含 Model Spec 以及來自 OpenAI、開發者和用戶的指令,即使在特定情況下有人不同意這個結果。
Model Spec 也包含超越可直接量測模型行為的公開承諾,例如:在 ChatGPT 等第一方部署中,永遠不會利用系統訊息刻意損害客觀性;以及「無其他目標」原則,承諾優化模型回應是為了用戶利益,而非營收或非有益的使用時長。
Model Spec 的核心是指令鏈:一個在特定情境下判斷哪些指令應生效的框架。
基本概念很簡單:指令可能來自不同來源——OpenAI、開發者和用戶——且這些指令可能互相衝突。指令鏈解釋模型應如何化解這些衝突。
每條 Model Spec 政策和每個指令都被賦予一個授權等級。模型被指示在衝突時優先遵循較高授權等級的指令字面與精神。如果用戶要求幫助製造炸彈,模型應優先遵守硬性安全邊界。如果用戶要求被嘲諷,模型通常應優先遵循該請求,而非 Model Spec 對濫用的低優先政策。
這個架構讓 OpenAI 能夠定義一小套不可覆寫的規則,搭配一套更大的預設行為,從而在安全約束內最大化用戶自由和開發者控制:
Spec 描述的是期望的行為,而不是如何產生這些行為的每個細節。Model Spec 的主要受眾不是模型本身,而是人類:它旨在幫助 OpenAI 員工、用戶、開發者、研究者和政策制定者理解、辯論並決定預期行為。
第一,Model Spec 是透明度與問責工具。 清楚的公開目標能幫助人們判斷某個行為是 bug 還是 feature。它為批評和具體回饋提供穩定的參考點。這也是 OpenAI 選擇開源 Model Spec 並公開迭代的原因。自第一版發布以來,許多改變都是基於公眾回饋做出的。
第二,Model Spec 是 OpenAI 內部的協調工具。 它讓研究、產品、安全、政策、法律、公關等不同職能的人有共同詞彙,並有提案和審查變更的機制。
第三,明確的政策能彌補模型智能和執行時情境的實際局限,使行為更可預測。
幾個設計原則指導 Model Spec 的撰寫與修訂:
Model Spec 不是在宣稱能把所有重要的事寫下來,或模型永遠會達到目標。它的主張是:預期行為重要到必須清晰、可行動、可修訂。
三個成功標準引導 Spec 的演進:
隨著模型和產品的演進,Model Spec 也預期會隨著新能力和部署情境而擴展和澄清。目標是讓行為規範保持連貫、可測試,並與確保 AGI 造福全人類的使命一致。
OpenAI 這份 Model Spec 的公關架構非常漂亮:公開、可審視、可迭代、像判例法一樣可以被引用。和 Anthropic 的 Claude Constitution 走的路線截然不同——後者更偏哲學論述且直接餵給模型學習,前者更像一份可以拿來對帳的行為合約。
但公開一份規範和真正被規範約束,是完全不同的兩件事。
Model Spec 的核心機制是「指令鏈」:OpenAI > 開發者 > 用戶,高層指令優先。設計邏輯很清楚,但它本質上是一個由 OpenAI 單方面定義、單方面解釋、單方面執行的框架。哪些行為是「硬性規則」、哪些是「可覆寫的預設」,由 OpenAI 決定。當模型行為出問題時,是 bug 還是 feature,也由 OpenAI 對照 Spec 來判斷。
文章特別提到,Model Spec 是「介面(interface)而非實作(implementation)」——它描述期望行為,不揭露訓練細節。這個區隔聽起來很合理,但實務上帶來一個問題:外部人士能看到 Spec 說模型「應該」怎麼做,卻無法驗證模型「實際上」是不是這樣做的。這讓 Model Spec 更像是一份聲明而非一份可稽核的規格。
另一個值得追問的是 Spec 裡關於國防合約的脈絡。文章提到 OpenAI 曾簽署國防部合約(Anthropic 因紅線拒絕),後因批評而修訂,並在 Spec 中加入「不應被用於大規模國內監控」的條款。這段歷史其實正好說明了 Model Spec 的運作方式:先做了某件事,被指出問題後,再把限制寫進文件裡。這不完全是壞事——至少他們有回應——但它也顯示,Spec 更像是一份隨事件演化的「已知問題清單」,而不是先驗的道德框架。
對開發者和使用者來說,Model Spec 最大的實用價值,可能不是它作為道德文件的意義,而是它作為溝通工具的功能:當你覺得模型行為不對勁,你可以指著 Spec 的某一段說「這不符合你們自己寫的規則」。這種可引用性確實比 Anthropic 的 Constitution 更具可操作性。但可引用和可問責之間的距離,仍然需要更多獨立的外部監督來彌補。