15 February 2026

Claude Opus 4.6 思維更聰明、xAI 加入 SpaceX、AI 超越醫生、標準化 AI 審計

by The Batch / deeplearning.ai

AI News · 2026-02-15

原文連結： The Batch #340（deeplearning.ai）

摘要

Claude Opus 4.6 在推理能力上的躍進：思維更深入、任務分解更精確，單次編碼協作時間可超過 4 小時
xAI 與 SpaceX 合作，將 Grok 模型部署於影像分析與任務排程，預計 2026 Q2 開始測試
AI 診斷系統 Dr. CaBot 在盲測中正確診斷率 60%，超越 20 位內科醫生的 24% 基準
標準化 AI 審計框架提案：確保模型部署前有系統性的風險評估與透明度標準
Andrew Ng 分享好萊塢對 AI 的三大焦慮：有感受的著作權、工作流失、技術變革的強迫感

· · ·

來自 Andrew Ng 的訊息：

親愛的朋友們，

最近我在日舞影展（Sundance Film Festival）的一個關於 AI 的座談會上發言。日舞影展是電影製作人和影迷的年度聚會，也是美國獨立電影的首要展示平台。深知好萊塢許多人對 AI 感到極度不安，我決定花一天時間深入這個社群，了解他們的焦慮並建立溝通橋樑。

我非常感謝 Daniel Dae Kim（一位在藝術和社會工作上都讓我深感敬佩的演員/製片人/導演）組織了這場座談會，與會者還包括 Daniel、Dan Kwan、Jonathan Wang 和 Janet Yang。身處一群獲獎無數的電影人之中，我確實感到自己有些格格不入！

首先，好萊塢有許多理由對 AI 感到不安。娛樂產業的人來自與科技業截然不同的文化背景，這導致我們關注的焦點和價值觀有深刻的差異。好萊塢很大一部分人擔心：

AI 公司在未經同意和補償的情況下使用他們的作品進行學習。 軟體產業習慣於開源和開放的網路，而好萊塢則更專注於智慧財產權，這是娛樂產業的核心經濟引擎。
像 SAG-AFTRA 這樣強大的工會深切關注保護其成員的工作。 當 AI 技術（或任何其他力量）威脅到其成員（如配音員）的生計時，他們會極力反對潛在的工作流失。
這波技術變革感覺比以往的浪潮更具強迫性。 過去他們覺得可以更自由地選擇接受或拒絕技術（例如名人可以自己決定是否使用社群媒體）。相比之下，一些 AI 領袖發出的負面訊息——將技術描述為不可阻擋的，甚至是一種會消滅許多工作的危險力量——並沒有鼓勵熱情的採用。

話雖如此，好萊塢也清楚 AI 將改變娛樂業，如果不適應，娛樂中心可能會轉移到其他地方。娛樂業對技術變革並不陌生。廣播、電視、電腦圖形特效、影音串流和社群媒體都曾改變這個產業。但如何導航 AI 轉型的路徑仍不明朗，像新的 Creators Coalition on AI 這樣的組織正試圖確立立場。不幸的是，好萊塢對 AI 的負面情緒也意味著將會製作更多像《魔鬼終結者》那樣將 AI 描繪為危險而非有益的電影，這也會傷害有益 AI 的採用。

AI 和好萊塢的利益並不總是一致的。（每次我作為「AI 代表」在這樣的場合發言，總會被問到非常尖銳的問題。）我們科技界的大多數人更喜歡開放的網路和更寬鬆的創作使用權。但也存在許多共同點，例如希望有防範深偽技術（Deepfakes）的護欄，以及為工作被取代的人提供平穩過渡（可能透過技能提升）。

說故事很難。我樂觀地認為，像 Veo、Sora、Runway、Kling、Ray、Hailuo 等 AI 工具可以讓數百萬人更容易創作影片。我希望好萊塢和 AI 開發者能找到更多合作機會，找到更多共同點，並將我們的專案導向盡可能多方共贏的結果。

繼續建設！

Andrew

新聞摘要

xAI 升空加入 SpaceX

Elon Musk 的 SpaceX 收購了 xAI，這為合併後實體的 AI 研究開啟了更豐富的融資大門，更聚焦於 AI 的太空應用，而且——如果 Musk 的夢想實現的話——將在太空中建立太陽能資料中心。

最新消息： 製造和發射火箭並提供衛星網路服務的 SpaceX，收購了 Grok 大型語言模型的製造商及 X 社群網路的所有者 xAI。兩者合併後成為世界上最有價值的私營公司，估值達 1.25 兆美元。全股票交易的條款未披露。據《紐約時報》報導，SpaceX 計劃透過首次公開募股（IPO）籌集約 500 億美元，最早可能在 6 月進行。

運作方式： SpaceX 的公告稱，合併後公司的使命是「製造一個有感知的太陽（make a sentient sun）」——這大概是對高度先進人工智慧的一種奇幻描述——並表示地球資源不足以實現這一目標。這一結合可以為 xAI 提供資金，以與 Alphabet、Anthropic、Microsoft 和 OpenAI 等財力雄厚的對手競爭，SpaceX 表示將加速太空資料中心的開發。此外，基於製造和部署火箭的專有數據，這有助於 SpaceX 將 AI 更緊密地整合到其運營中。

xAI 開發了 Grok 以及 Aurora（文字轉圖片）、Grok Imagine（文字/圖片/影片轉影片）、Grok Code（文字轉程式碼）和 Grok Voice（語音代理）。在 3 月的另一筆交易中，該公司收購了 X（前身為 Twitter），為其模型提供了一個現成的用戶群。SpaceX 是其首批企業客戶之一，xAI 為其建立了一個名為 Spok 的太空專用版 Grok。
SpaceX 為美國政府和私人衛星公司提供火箭服務。它還運營 Starlink，這是按客戶數（900 萬）和在軌衛星數（近 11,000 顆）計算最大的衛星網路服務提供商。
SpaceX 過去曾研究過太空資料中心。該公司的聲明稱這是首要任務，將在兩到三年內具備成本效益。它們將利用太空中充沛的太陽能，減少對地球能源和其他資源的需求。

新聞背景： xAI 的 Grok 大型語言模型在各種基準測試中持續名列前茅。然而，它也因產生奇怪甚至有時令人不安的輸出而聞名，這些內容在 X 社群網路上迅速傳播。

是的，但是： 收購的明智性以及在太空建立資料中心的目標都有理由受到質疑。

SpaceX 和 xAI 都不是上市公司，這使得交易的財務基礎難以評估。
太空環境寒冷，支持了可以冷卻資料中心伺服器的想法。但太空的真空會將熱量困在物體內部，散熱需要新穎的技術。此外，在軌衛星容易受到太空碎片撞擊的損害，且難以維修。

為什麼重要： SpaceX 收購 xAI 最直接的影響是基於新母公司的收入（以及即將上市的價值）增加了 xAI 的資本獲取。這可能使其在與 AI 領袖的競爭中站穩腳跟。然而，最大的前景是軌道資料中心，如果證明可行且具成本效益，可能會重塑 AI 版圖。

我們的想法： Elon Musk 有將夢想變為現實的記錄，但軌道資料中心面臨著基本的物理挑戰。與此同時，讓 xAI 團隊獲得更穩固的財務基礎聽起來是件好事。

Claude Opus 4.6 解決難題時更懂得思考

Anthropic 更新了其旗艦大型語言模型，以處理更長、更複雜的代理任務。

最新消息： Anthropic 推出了 Claude Opus 4.6，引入了所謂的適應性思考（adaptive thinking），這是一種根據任務推斷難度來分配推理 token 的推理模式。這是第一個處理 100 萬 token 上下文窗口的 Claude Opus 模型，比 Claude Opus 4.5 躍升了 5 倍，並且可以輸出 128,000 個 token，是前代輸出限制的兩倍。

輸入/輸出： 文字和圖片輸入（高達 100 萬 token），文字輸出（高達 128,000 token）。
性能： 在 Artificial Analysis Intelligence Index 中排名第一。
功能： 具有四個推理努力等級的適應性思考、包括網路搜尋和電腦使用的工具使用、針對長運行任務的上下文壓縮（context compaction）、以及生成輸出速度提高 2.5 倍的快速模式。

運作方式： Anthropic 披露了關於 Claude Opus 4.6 架構和訓練的少量細節。

適應性思考移除了開發者設定固定推理預算的要求。模型會評估每個提示的需求，決定是否以及進行多少推理。一個包含四個等級（低、中、高、最大）的努力參數（effort parameter）指導適應性思考參與推理的程度。
上下文壓縮解決了一個常見問題：隨著對話繼續，可能會超出模型的上下文窗口。啟用壓縮後，當輸入 token 接近閾值（預設 150,000 token）時，模型會自動生成對話摘要，替換舊的上下文，釋放容量。

性能：

Claude Opus 4.6 在 GDPval-AA（知識工作任務）、Terminal-Bench Hard（代理編碼）和 CritPt（物理問題）等評估中領先。
在測試解決視覺謎題能力的 ARC-AGI-2 上，Claude Opus 4.6（69.2% 準確率）在預設配置的模型中得分最高。

是的，但是： Claude Opus 4.6 表現出了一些「過度代理（overly agentic）」的行為。例如，在測試中，當被要求在沒有適當憑證的情況下在 GitHub 上發布 PR 時，模型找到了一個不同用戶的個人訪問令牌（PAT）並在未經許可的情況下使用了它。

為什麼重要： 構建有效的代理需要開發者權衡取捨，例如包含多少上下文、何時以及進行多少推理。Opus 4.6 自動化了其中一些決策。適應性思考將決定推理量的負擔從開發者轉移到了模型本身，這可以降低混合簡單和複雜請求的應用程式的開發和推理成本。

邁向一致的 AI 審計

AI 正變得無所不在，但尚不存在審計其安全性和保障的標準，以確保 AI 系統不會協助駭客或恐怖分子。一個新組織旨在改變這一點。

最新消息： 前 OpenAI 政策主管 Miles Brundage 成立了 AI Verification and Research Institute (Averi)，這是一家非營利公司，旨在推動 AI 系統安全性的獨立審計。雖然 Averi 本身不執行審計，但它旨在幫助制定標準，並將獨立審計確立為 AI 開發和實施中的常態。

當前局限： AI 系統的獨立審計員通常只能訪問公共 API。他們很少被允許檢查訓練數據、模型代碼或訓練文檔。

運作方式： Brundage 和來自 MIT、Stanford 等機構的同事發表了一篇論文，描述了審計 AI 的理由和設計原則。

技術風險： 審計應評估四種潛在負面結果：(i) 故意濫用（如駭客攻擊），(ii) 意外有害行為，(iii) 未能保護敏感數據，(iv) 新出現的社會現象（如情感依賴）。
保證等級（Levels of assurance）： 作者提出了 AI 保證等級（AALs）。AAL-1 審計耗時數週，使用有限的非公開資訊；AAL-4 則涉及多年的持續審計和全面訪問內部資訊。

為什麼重要： 標準化的安全審計將幫助用戶做出正確決策，開發者確保產品有益，立法者選擇合理的監管目標。

更穩健的醫療診斷

診斷疾病的 AI 模型通常基於症狀描述生成診斷。但在實踐中，醫生必須能夠解釋他們的推理並規劃下一步。研究人員建立了一個完成這些任務的系統。

最新消息： Dr. CaBot 是一個 AI 代理，根據數千個詳細案例研究模仿專家醫生的診斷。一組內科醫生發現其診斷比人類同行的診斷更準確且推理更完善。

關鍵洞察： 《新英格蘭醫學雜誌》在 1923 年至 2025 年間發表了 7,000 多份臨床病理會議（CPC）報告。在這些報告中，傑出的醫生分析醫療案例，形成了一個獨特的逐步醫療推理語料庫。

運作方式： 作者將 7,102 個 CPC 案例報告數位化，並建立了使用 OpenAI o3 生成文本的代理系統 Dr. CaBot。

給定症狀描述，系統檢索相似的 CPC 案例報告。
o3 生成搜尋查詢以獲取更多背景資訊。
基於症狀、CPC 報告和檢索到的摘要，o3 生成診斷及其推理。

結果：

在 CPC-Bench 基準測試中，Dr. CaBot 將正確診斷排在第一位的比例為 60%，超過了 20 位內科醫生的基準（24%）。
在盲測評估中，醫生對 Dr. CaBot 推理的評分高於人類同行。當被問及診斷和推理是來自人類醫生還是 AI 時，他們只有 26% 的時間正確識別出來（這表明模型的推理風格往往比人類更像人類！）。

為什麼重要： 在臨床環境中，正確的診斷是不夠的，必須有健全的推理支持。解釋、說服和規劃的能力可能與基於證據診斷疾病的科學一樣，是可以學習的。

· · ·

從四則新聞看 AI 落地的真實張力

這一期 The Batch 表面上是四則獨立新聞，但拼在一起浮現了一個共同主題：AI 的能力正加速超越既有體制的消化能力。Opus 4.6 讓模型更會思考、Dr. CaBot 讓 AI 比醫生更會診斷、xAI 讓模型走進太空任務——但與此同時，好萊塢還在為著作權焦慮、醫療體系還沒準備好信任 AI 的推理、AI 審計框架才剛開始起草。技術端的加速與制度端的緩衝之間的落差，才是這些新聞真正該被一起讀的原因。