AI Articles

AI 領域精選文章翻譯

View the Project on GitHub Kumazan/ai-articles

30 March 2026

衡量 AGI 進展:Google DeepMind 的認知分類框架

by Google DeepMind

AI News · 2026-03-30

原文連結: Measuring progress toward AGI: A cognitive framework

摘要

· · ·

距離 AGI 還有多遠?現在有了更精確的量尺

人工通用智慧(AGI)有潛力加速科學發現,幫助人類解決最棘手的問題。但究竟離這個里程碑有多近?目前缺乏系統性的實證工具來回答這個問題。

為此,Google DeepMind 在 2026 年 3 月發布了一篇新論文:《Measuring Progress Toward AGI: A Cognitive Taxonomy》,以認知科學為基礎,建立了一套評估 AI 系統通用智慧能力的科學框架。

解構「通用智慧」

這套框架汲取數十年的心理學、神經科學與認知科學研究,提出了一個認知分類體系,識別出 10 項核心認知能力,研究者認為這些能力對於通用智慧至關重要:

  1. 感知(Perception):從環境中提取與處理感官資訊
  2. 生成(Generation):產出文字、語音、動作等輸出
  3. 注意力(Attention):將認知資源集中於關鍵事物
  4. 學習(Learning):透過經驗與指引習得新知識
  5. 記憶(Memory):跨時間儲存與檢索資訊
  6. 推理(Reasoning):透過邏輯推論得出有效結論
  7. 後設認知(Metacognition):對自身認知過程的認知與監控
  8. 執行功能(Executive functions):規劃、抑制與認知彈性
  9. 問題解決(Problem solving):針對特定領域找到有效解法
  10. 社會認知(Social cognition):處理與詮釋社交資訊並適當回應

三階段評估協定

要理解 AI 在各認知能力上的水準,研究者提出了以下三步驟評估流程:

  1. 使用涵蓋各項能力的廣泛認知任務組合評測 AI 系統(採留存測試集以防資料汙染)
  2. 從具代表性的成人樣本收集相同任務的人類基準表現
  3. 將每個 AI 系統的表現,對照人類表現分佈進行標準化比較

從理論到實踐:$200,000 黑客松

定義認知能力只是第一步——真正的難題在於如何建立對應的評測工具。DeepMind 與 Kaggle 合作推出黑客松:「Measuring progress toward AGI: Cognitive abilities」,邀請全球研究社群針對評估缺口最大的五項能力設計評測方案,分別是:

參賽者可使用 Kaggle 新推出的 Community Benchmarks 平台,對一系列前沿模型進行測試。

獎金結構:

投稿期間:2026 年 3 月 17 日至 4 月 16 日,結果公布:2026 年 6 月 1 日。

為什麼這件事很重要

長期以來,「AGI 已到來」或「AGI 仍是幻想」的論戰缺乏共同的評估語言。DeepMind 這套框架試圖提供一把共同的量尺——不是宣稱現有模型已達到 AGI,而是建立一個可被研究社群驗證、辯論、並迭代改進的評估基礎設施。

這與過去「以單一 benchmark 定高下」的做法有本質差異:它承認通用智慧是多維度的,且不同能力的發展軌跡可能截然不同。

投稿連結:kaggle.com/competitions/kaggle-measuring-agi

· · ·

框架本身不是問題,「誰來定義什麼算通過」才是

DeepMind 這篇論文做的事情,從學術角度看很有價值:把「AGI」這個被各家公司隨意使用的詞,拆解成 10 項可操作的認知能力,並提出三階段對照人類表現的評估協定。這比「模型在某個 benchmark 跑幾分」的做法嚴謹得多,也更接近認知科學界長期以來理解智慧的方式。

但幾個根本性的問題,論文本身並沒有處理。

第一,人類表現分佈不是一個穩定的參照點。 框架的第三步是「將 AI 表現對照人類表現分佈進行標準化比較」。但人類在後設認知、社會認知、執行功能等能力上的表現,本身就有巨大的個體差異和文化差異。用哪群人的表現當基準?心理學實驗裡那種以西方大學生為主的 WEIRD 樣本嗎?這個選擇本身就會深刻影響「AI 離 AGI 還有多遠」的結論。

第二,認知能力的拆解本身帶有特定的理論承諾。 把智慧拆成感知、推理、記憶等 10 項能力,這種做法來自認知心理學的模組化傳統。但認知科學內部對這種拆法是有爭議的——有些學派認為智慧是高度整合的、無法被乾淨拆分的。用模組化框架去評估一個可能根本不是模組化運作的系統,結論可能會系統性地偏向某些架構設計。

第三,Kaggle 黑客松是聰明的 crowdsourcing,但也可能帶來新的偏差。 讓社群來設計評測工具,能快速覆蓋更多創意和角度;但 Kaggle 參賽者的激勵結構是「贏比賽」,不是「設計最嚴謹的評測」。如果獎勵機制偏向「產出讓模型區分度最大的 benchmark」,那最終的評測工具可能更適合排名,而不是真正測量認知能力。

真正令人在意的問題,其實不在技術層面,而在政治層面:當這套框架成為產業標準後,誰有權宣布模型已達到某個認知等級? 如果 Google DeepMind 既是框架的設計者、又是主要被評估者之一,那它在 AGI 敘事中的話語權就會非常不對稱。對其他研究機構和開源社群來說,參與這套框架的制定與迭代,可能比跑幾個 Kaggle 比賽更重要。