29 March 2026

OpenAI Model Spec 的哲學與機制：他們如何決定 ChatGPT 的行為邊界

by OpenAI Research

AI News · 2026-03-29

原文連結： https://openai.com/index/our-approach-to-the-model-spec/

摘要

OpenAI 的 Model Spec 是一份公開的行為規範文件，定義模型應如何遵從指令、解決衝突、尊重用戶自由，並讓外部人士能公開審視與辯論
核心架構為「指令鏈（Chain of Command）」：OpenAI > 開發者 > 用戶，高層級指令在衝突時優先；少數不可覆寫的紅線規則（禁止大規模監控、武器資訊等），其餘行為皆允許被明確指令調整
Model Spec 是「介面（interface），而非實作（implementation）」——它描述期望行為，而不是訓練細節，主要受眾是人類（研究者、政策制定者、公眾），而非模型本身
OpenAI 與 Anthropic 方法截然不同：前者偏行為規範（像判例法），後者（Claude Constitution）偏哲學論文，且 Anthropic 會直接把 Constitution 餵給模型學習
文章同時揭露了爭議背景：OpenAI 曾簽署國防部合約（Anthropic 因紅線拒絕），後因批評而修訂；Model Spec 明確寫明模型不應被用於「大規模國內監控」

· · ·

OpenAI 相信，AI 應該公平、安全，且能廣泛取得，讓更多人用它解決困難問題，在健康、科學、教育、工作和日常生活中創造機會。民主化的 AI 普及，是他們認為最正確的前進道路——不是讓少數人壟斷 AI 的好處或控制權，而是讓更多人能取得、理解並參與塑造它。

這正是 OpenAI Model Spec 存在的核心原因。Model Spec 是 OpenAI 對模型行為的正式規範框架，定義了模型應如何遵從指令、解決衝突、尊重用戶自由，並在用戶每天提出的各式各樣問題中安全運作。更廣義地說，這是他們讓「預期模型行為」變得明確的嘗試——不只是埋在訓練流程裡，而是以一種用戶、開發者、研究者、政策制定者和廣大公眾都能真正閱讀、審視與辯論的形式呈現。

Model Spec 並不是在宣稱模型今天已經完美達到這些行為。許多方面它是描述性的，但同時也是一個目標——讓模型行為的方向更清晰，從而能夠訓練趨近它、評估它，並隨時間不斷改進。

這篇文章分享了 Model Spec 本文未收錄的背景故事，包括其背後的哲學與機制：它如何架構、為何做出這些架構選擇，以及如何撰寫、實作與演進。

Model Spec 的組成內容

高層意圖與公開承諾

Model Spec 以高層意圖為開頭：清楚說明他們在系統層面試圖優化什麼，以及為什麼。

前言釐清了三個目標：

逐步部署賦能開發者與用戶的模型
防止模型對用戶或他人造成嚴重傷害
維持 OpenAI 繼續運作的正當性

重要的是，這個前言並非直接指令給模型。造福人類是 OpenAI 的目標，而不是他們希望模型自主追求的目標。他們希望模型遵循一條「指令鏈」——包含 Model Spec 以及來自 OpenAI、開發者和用戶的指令，即使在特定情況下有人不同意這個結果。

Model Spec 也包含超越可直接量測模型行為的公開承諾，例如：在 ChatGPT 等第一方部署中，永遠不會利用系統訊息刻意損害客觀性；以及「無其他目標」原則，承諾優化模型回應是為了用戶利益，而非營收或非有益的使用時長。

指令鏈（Chain of Command）

Model Spec 的核心是指令鏈：一個在特定情境下判斷哪些指令應生效的框架。

基本概念很簡單：指令可能來自不同來源——OpenAI、開發者和用戶——且這些指令可能互相衝突。指令鏈解釋模型應如何化解這些衝突。

每條 Model Spec 政策和每個指令都被賦予一個授權等級。模型被指示在衝突時優先遵循較高授權等級的指令字面與精神。如果用戶要求幫助製造炸彈，模型應優先遵守硬性安全邊界。如果用戶要求被嘲諷，模型通常應優先遵循該請求，而非 Model Spec 對濫用的低優先政策。

這個架構讓 OpenAI 能夠定義一小套不可覆寫的規則，搭配一套更大的預設行為，從而在安全約束內最大化用戶自由和開發者控制：

硬性規則：明確邊界，用戶或開發者無法覆寫。主要是禁止性的，要求模型避免可能造成災難性風險或直接身體傷害、違法，或破壞指令鏈的行為。
預設行為：可覆寫的起點，是助理在用戶或開發者未指定偏好時的「最佳猜測」行為。預設行為讓大規模行為可預測且可控制，讓人們無需每次都撰寫客製指令集。

Spec 是介面，而非實作

Spec 描述的是期望的行為，而不是如何產生這些行為的每個細節。Model Spec 的主要受眾不是模型本身，而是人類：它旨在幫助 OpenAI 員工、用戶、開發者、研究者和政策制定者理解、辯論並決定預期行為。

為何公開這麼多？

第一，Model Spec 是透明度與問責工具。 清楚的公開目標能幫助人們判斷某個行為是 bug 還是 feature。它為批評和具體回饋提供穩定的參考點。這也是 OpenAI 選擇開源 Model Spec 並公開迭代的原因。自第一版發布以來，許多改變都是基於公眾回饋做出的。

第二，Model Spec 是 OpenAI 內部的協調工具。 它讓研究、產品、安全、政策、法律、公關等不同職能的人有共同詞彙，並有提案和審查變更的機制。

第三，明確的政策能彌補模型智能和執行時情境的實際局限，使行為更可預測。

如何撰寫好的 Spec 內容

幾個設計原則指導 Model Spec 的撰寫與修訂：

清晰與精確：「誠實」是很好的價值觀，但不是完整的決策流程。Spec 應該能讓分歧更尖銳，而非用令人愉悅的語言掩蓋它們。
實質性規則：讀者應能拿著一個真實的 prompt 得出答案，而另一個讀者也認為這答案明確在線內或線外。
能最大化訊噪比的範例：好的範例能觸及指定模型行為困難的核心，把困難衝突帶到表面，並對如何解決取得清晰立場。
穩健性：避免帶有多餘模糊性或複雜性的範例，使核心衝突與預期解決方式清晰。
一致性與清晰的組織：所有規則應完全一致。

如何前進

Model Spec 不是在宣稱能把所有重要的事寫下來，或模型永遠會達到目標。它的主張是：預期行為重要到必須清晰、可行動、可修訂。

三個成功標準引導 Spec 的演進：

可讀性（Legibility）：OpenAI 內外的人都能形成對行為的準確預期，當行為出乎意料時能指向具體文字。
可行動性（Actionability）：Model Spec 能用於設計評估、診斷事故、做出一致的產品決策——而不只是表達價值觀。
可修訂性（Revisability）：Model Spec 能隨著學習演進，而不會變成不穩定的移動靶。

隨著模型和產品的演進，Model Spec 也預期會隨著新能力和部署情境而擴展和澄清。目標是讓行為規範保持連貫、可測試，並與確保 AGI 造福全人類的使命一致。

· · ·

Model Spec 的真正考驗，不是寫得好不好，而是誰來判斷它有沒有被遵守

OpenAI 這份 Model Spec 的公關架構非常漂亮：公開、可審視、可迭代、像判例法一樣可以被引用。和 Anthropic 的 Claude Constitution 走的路線截然不同——後者更偏哲學論述且直接餵給模型學習，前者更像一份可以拿來對帳的行為合約。

但公開一份規範和真正被規範約束，是完全不同的兩件事。

Model Spec 的核心機制是「指令鏈」：OpenAI > 開發者 > 用戶，高層指令優先。設計邏輯很清楚，但它本質上是一個由 OpenAI 單方面定義、單方面解釋、單方面執行的框架。哪些行為是「硬性規則」、哪些是「可覆寫的預設」，由 OpenAI 決定。當模型行為出問題時，是 bug 還是 feature，也由 OpenAI 對照 Spec 來判斷。

文章特別提到，Model Spec 是「介面（interface）而非實作（implementation）」——它描述期望行為，不揭露訓練細節。這個區隔聽起來很合理，但實務上帶來一個問題：外部人士能看到 Spec 說模型「應該」怎麼做，卻無法驗證模型「實際上」是不是這樣做的。這讓 Model Spec 更像是一份聲明而非一份可稽核的規格。

另一個值得追問的是 Spec 裡關於國防合約的脈絡。文章提到 OpenAI 曾簽署國防部合約（Anthropic 因紅線拒絕），後因批評而修訂，並在 Spec 中加入「不應被用於大規模國內監控」的條款。這段歷史其實正好說明了 Model Spec 的運作方式：先做了某件事，被指出問題後，再把限制寫進文件裡。這不完全是壞事——至少他們有回應——但它也顯示，Spec 更像是一份隨事件演化的「已知問題清單」，而不是先驗的道德框架。

對開發者和使用者來說，Model Spec 最大的實用價值，可能不是它作為道德文件的意義，而是它作為溝通工具的功能：當你覺得模型行為不對勁，你可以指著 Spec 的某一段說「這不符合你們自己寫的規則」。這種可引用性確實比 Anthropic 的 Constitution 更具可操作性。但可引用和可問責之間的距離，仍然需要更多獨立的外部監督來彌補。