30 March 2026

衡量 AGI 進展：Google DeepMind 的認知分類框架

by Google DeepMind

AI News · 2026-03-30

原文連結： Measuring progress toward AGI: A cognitive framework

摘要

Google DeepMind 發布論文《Measuring Progress Toward AGI: A Cognitive Taxonomy》，以認知科學為基礎建立評估 AGI 進展的正式框架。
框架識別出 10 項關鍵認知能力，涵蓋感知、推理、記憶、學習、後設認知、執行功能等，並以三階段協定對比人類表現基準。
目前評估缺口最大的五項能力為：學習、後設認知、注意力、執行功能與社會認知。
配合論文，DeepMind 與 Kaggle 聯合推出黑客松，邀請社群協助建構評測工具，獎金池高達 $200,000 美元。
黑客松投稿截止日期為 2026 年 4 月 16 日，結果將於 6 月 1 日公布。

· · ·

距離 AGI 還有多遠？現在有了更精確的量尺

人工通用智慧（AGI）有潛力加速科學發現，幫助人類解決最棘手的問題。但究竟離這個里程碑有多近？目前缺乏系統性的實證工具來回答這個問題。

為此，Google DeepMind 在 2026 年 3 月發布了一篇新論文：《Measuring Progress Toward AGI: A Cognitive Taxonomy》，以認知科學為基礎，建立了一套評估 AI 系統通用智慧能力的科學框架。

解構「通用智慧」

這套框架汲取數十年的心理學、神經科學與認知科學研究，提出了一個認知分類體系，識別出 10 項核心認知能力，研究者認為這些能力對於通用智慧至關重要：

感知（Perception）：從環境中提取與處理感官資訊
生成（Generation）：產出文字、語音、動作等輸出
注意力（Attention）：將認知資源集中於關鍵事物
學習（Learning）：透過經驗與指引習得新知識
記憶（Memory）：跨時間儲存與檢索資訊
推理（Reasoning）：透過邏輯推論得出有效結論
後設認知（Metacognition）：對自身認知過程的認知與監控
執行功能（Executive functions）：規劃、抑制與認知彈性
問題解決（Problem solving）：針對特定領域找到有效解法
社會認知（Social cognition）：處理與詮釋社交資訊並適當回應

三階段評估協定

要理解 AI 在各認知能力上的水準，研究者提出了以下三步驟評估流程：

使用涵蓋各項能力的廣泛認知任務組合評測 AI 系統（採留存測試集以防資料汙染）
從具代表性的成人樣本收集相同任務的人類基準表現
將每個 AI 系統的表現，對照人類表現分佈進行標準化比較

從理論到實踐：$200,000 黑客松

定義認知能力只是第一步——真正的難題在於如何建立對應的評測工具。DeepMind 與 Kaggle 合作推出黑客松：「Measuring progress toward AGI: Cognitive abilities」，邀請全球研究社群針對評估缺口最大的五項能力設計評測方案，分別是：

學習
後設認知
注意力
執行功能
社會認知

參賽者可使用 Kaggle 新推出的 Community Benchmarks 平台，對一系列前沿模型進行測試。

獎金結構：

五個賽道各取前兩名，每名獲得 $10,000
四個最佳整體提交獲得 $25,000 大獎

投稿期間：2026 年 3 月 17 日至 4 月 16 日，結果公布：2026 年 6 月 1 日。

為什麼這件事很重要

長期以來，「AGI 已到來」或「AGI 仍是幻想」的論戰缺乏共同的評估語言。DeepMind 這套框架試圖提供一把共同的量尺——不是宣稱現有模型已達到 AGI，而是建立一個可被研究社群驗證、辯論、並迭代改進的評估基礎設施。

這與過去「以單一 benchmark 定高下」的做法有本質差異：它承認通用智慧是多維度的，且不同能力的發展軌跡可能截然不同。

投稿連結：kaggle.com/competitions/kaggle-measuring-agi

· · ·

框架本身不是問題，「誰來定義什麼算通過」才是

DeepMind 這篇論文做的事情，從學術角度看很有價值：把「AGI」這個被各家公司隨意使用的詞，拆解成 10 項可操作的認知能力，並提出三階段對照人類表現的評估協定。這比「模型在某個 benchmark 跑幾分」的做法嚴謹得多，也更接近認知科學界長期以來理解智慧的方式。

但幾個根本性的問題，論文本身並沒有處理。

第一，人類表現分佈不是一個穩定的參照點。 框架的第三步是「將 AI 表現對照人類表現分佈進行標準化比較」。但人類在後設認知、社會認知、執行功能等能力上的表現，本身就有巨大的個體差異和文化差異。用哪群人的表現當基準？心理學實驗裡那種以西方大學生為主的 WEIRD 樣本嗎？這個選擇本身就會深刻影響「AI 離 AGI 還有多遠」的結論。

第二，認知能力的拆解本身帶有特定的理論承諾。 把智慧拆成感知、推理、記憶等 10 項能力，這種做法來自認知心理學的模組化傳統。但認知科學內部對這種拆法是有爭議的——有些學派認為智慧是高度整合的、無法被乾淨拆分的。用模組化框架去評估一個可能根本不是模組化運作的系統，結論可能會系統性地偏向某些架構設計。

第三，Kaggle 黑客松是聰明的 crowdsourcing，但也可能帶來新的偏差。 讓社群來設計評測工具，能快速覆蓋更多創意和角度；但 Kaggle 參賽者的激勵結構是「贏比賽」，不是「設計最嚴謹的評測」。如果獎勵機制偏向「產出讓模型區分度最大的 benchmark」，那最終的評測工具可能更適合排名，而不是真正測量認知能力。

真正令人在意的問題，其實不在技術層面，而在政治層面：當這套框架成為產業標準後，誰有權宣布模型已達到某個認知等級？ 如果 Google DeepMind 既是框架的設計者、又是主要被評估者之一，那它在 AGI 敘事中的話語權就會非常不對稱。對其他研究機構和開源社群來說，參與這套框架的制定與迭代，可能比跑幾個 Kaggle 比賽更重要。