主要なAIモデルが AGIテストで全滅: 汎用人工知能の高い壁


2025/4/6

主要なAIモデルが AGIテストで全滅: 汎用人工知能の高い壁

 
 
 
 
 
 
 
 
 
 

主要なAIモデルが

AGIテストで全滅:

汎用人工知能の高い壁

 
 

 

ARC Prize Foundationで行われた研究によって、

新たなベンチマーク「ARC-AGI-2」の

衝撃的な結果が明らかになりました。

 

 

これまで、

人工知能(AI)はチェスや囲碁など

高度な専門領域で人間のトッププレイヤーを凌駕し、

 

「人間のように幅広い課題に柔軟に

対処できる汎用人工知能(AGI)」の

実現へと近づいていると期待されてきました。

 

 

しかし今回のARC-AGI-2では、

 

多くの先端AIモデルが軒並み

低スコアにとどまり、

“全滅状態”に近い結末を迎えたのです。

 

 

 

このテストは、

従来の「難問を解く」タイプとは正反対に、

「人間なら比較的簡単に対処できる」

日常的・直感的なタスクに注目しており、

 

実際に人間パネル(複数の被験者)の

平均スコアが約60%だったのに対し、

 

AIは一桁台の正答率に

終始するケースが相次ぎました。

 

 

 

さらにどれだけ多額の計算リソースを

投入しても正答率が伸びない

“逆転現象”も目立ち、

 

「AIは何でもできるわけではないのか?」

と改めて問いを突きつけています。

 

 

同時に、

大規模計算ばかりに頼らず、

新たな推論手法を開発する必要性が

研究者コミュニティで一段と高まっているのです。

 

 

果たしてAI研究はここからどの

方向へ進むのでしょうか?

 

 

 

知識量だけじゃ突破不能:

AGIへの壁は高い

 
 
 
 
知識量だけじゃ突破不能:AGIへの壁は高い
 
知識量だけじゃ突破不能:
 
AGIへの壁は高い 

 

 

チェスや将棋、そして囲碁など、

人間にとって難解とされてきたボードゲームで

AIが勝利を収めるたび、

 

メディアは「AIが人間を超えた」と

大きく取り上げてきました。

 

 

さらに画像認識や自然言語処理

といった応用分野でも、

 

深層学習(ディープラーニング)の

登場によって飛躍的な性能向上が

実現しています。

 

 

こうしたニュースを目にすると、

多くの人が「このままAIが発展すれば、

 

”いずれ“なんでもできる汎用人工知能(AGI)”に

到達するのではないか」と

期待してしまうのも無理はありません。

 

 

ところが、

AI研究者の間では以前から、

「特定分野での強さ」と「どんな状況にも

 

柔軟に対応できる汎用性」は

別問題だと考えられてきました。

 

 

歴史を振り返ると、

アラン・チューリングが提案した

“Turing Test”や、その後の

“Winograd Schema

Challenge”“BIG-Bench”など、

 

 

AGIの多面的な能力を測ろうとする

試みは何度も行われてきました。

 

 

しかし多くのベンチマークが、

博士号レベルの問題に正解できるかなど

“高度な知識や言語能力”に偏ってきたため、

 

まったく性質の異なる日常的な思考や

直観を要する課題ではAIが苦戦する、

という構造的なアンバランスが続いていました。

 

 

このギャップに着目し、

2019年に登場したのが

「ARC-AGI」と呼ばれる

新しいベンチマークです。

 

 

人間が「パッと見ただけでルールを

つかめる問題」にもかかわらず、

 

AIにとっては“単純な暗記”では

突破できないよう設計されているのが

大きな特徴でした。

 

 

実際、ARC-AGI-1と名付けられた

初代ベンチマークで、

 

多くの先端AIモデルが苦戦を強いられ、

人間の思考プロセスと機械の違いが

はっきりと浮き彫りになったのです。

 

 

とはいえ、

その後の研究やKaggleの

「ARC Prize」コンテストを通じ、

 

一部のモデルはARC-AGI-1で

高いスコアを示すようになりました。

 

 

オープンAIの高度なAIシステムなども

改良を進め、

 

「人間に近い汎用的推論が

見えてきたのでは?」

という期待が2024年頃には高まりました。

 

 

しかし同時に、

「それらのモデルが本当に未知の

問題に適応しているのか?」という疑問や、

 

「巨大計算による brute force 的な

アプローチに頼っているだけでは?」

という批判も強まったのです。

 

 

そもそもAGIは、

人間のように少しのヒントでも新しい状況に

応用できる能力が求められ、

 

大量の計算リソースだけでは

解決にならない可能性が高い

この認識が背景にありました。

 

 

そこで開発されたのが「ARC-AGI-2」です。

 

 

今回の新バージョンは

効率性を強く意識し、

 

AIの演算コストや推論コストを

厳しく見る設計になっています。

 

 

さらに、

文脈依存のルールや

複雑なシンボル操作を含む

多彩なパズルを加え、

 

「人間なら短時間で対応できるのに、

AIにはなかなか難しい」

状況を提示することを重視しているのです。

 

 

こうした背景から、

研究者たちは

「人間が当たり前にこなす省コストな思考を、

 

AIがどこまで再現できるか」を

検証するために大規模実験を実施しました。

 

 

 

 

高性能AI

日常力”はゼロ?

新テストが明かす意外な落とし穴

 
 
 

高性能AIの“日常力”はゼロ?新テストが明かす意外な落とし穴

 

高性能AIの“日常力”はゼロ?

新テストが明かす意外な落とし穴 

 

 

 

この実験では、

さまざまなAIモデルに対して

「ARC-AGI-2」の問題を解かせ、

正答率と“タスクあたりのコスト”の

両面から評価しています。

 

 

タスクには、

見慣れたシンボル(記号)の意味づけを

文脈によって切り替えたり、

 

「同じパターンを別の視点から再構成しないと

正解が出ない」という、

 

少し工夫すれば理解できそうな

問題が多く含まれました。

 

 

たとえばある問題では、

記号が数学の演算記号としての意味を持つ

場合もあれば、

 

全く別の操作を示す場合もあり、

どの文脈でどう解釈すべきかを

瞬時に判断する必要があります。

 

 

また、別のテストでは、

同じパターンの図形が、

見る角度や配置の違いによって異なる

ルールに従うという問題が出題され、

 

AIにはその背後にある複雑なルールや

文脈の変化を正しく読み取る

ことが求められました。

 

 

今回の研究では、

以下のAIモデルを用いて

ARC-AGI-2のテストが実施されました。

 

 

 

人間であれば、

二度のトライ以内(pass@2)で

正解にたどり着くケースが比較的多く見られ、

 

平均してAIよりも高いスコアを記録したと言います。

 

 

ただし、

人間が必ずしも全問を簡単に

解いたわけではありません。

 

 

実際には人間パネルの平均スコアは

約60%程度と報告されており、

タスクによっては迷いが生じるものもありました。

 

 

また、AIの推論にかかった演算コストを

貨幣換算すると、

 

一問あたり200ドル相当という膨大な

リソースが投入されても正解が出せない

事例が複数確認されました。

 

 

とくにARC-AGI-1で高得点を

出していた有名なAIが、

ARC-AGI-2では

 

 

一桁台に落ち込むなど、

“得意だったモデルがまったく

歯が立たない”という光景も目立ちました。

 

 

強力な計算力を注いでも

スコアが伸び悩むことから、

 

人間的な直観や省エネの思考プロセスを

再現するのは決して簡単ではない、

という事実が改めて浮き彫りになったのです。

 

 

なぜこの研究が革新的なのか?

 

 

ARC-AGI-2の最大の特徴は、

「問題を解けるかどうか」に加えて

「どの程度のコストで解いたか」

という視点を入れたことです。

 

 

人間が持つ直観や柔軟性は

巨大な計算を必要としませんが、

 

多くのAIはそこが苦手であり、

本質的な意味や文脈をつかむという部分を

補う仕組みが不足していると言えます。

 

 

こうした弱点が明確になったことで、

「本当に頭のいいAI」を実現するためには、

 

ただ巨大なモデルを使うだけでは足りず、

より深い推論手法や新しいアルゴリズムが

求められるのではないかと考えられています。

 

 

 

人間なら当然の

省エネ思考”がAIを苦しめる

 
 

ARC-AGI-2の検証から見えてきたのは、

AIがいくら大規模データや

強力な演算力を備えていても、

 

人間のような柔軟性や省エネルギー性を

簡単には獲得できないという現実です。

 

 

専門家の多くは「従来のモデルは膨大な

パターンを学習するには優れているが、

 

初見の場面で抽象的な意味を

再解釈する力が弱い」と指摘しています。

 

 

文脈やシンボルの意味を独自に

理解する仕組みが不足しているため、

 

ARC-AGI-2のような

「人間ならさほど苦労せず対応できる」

タスクでつまづいてしまうのです。

 

 

もう一つの大きな示唆は、

AIの推論コストと効率がAGI開発において

本質的な課題になりつつあるということです。

 

 

人間の脳は非常に省エネかつ

高速に多様なタスクをこなしますが、

 

現状のAIでは、

莫大なリソースを投入しても「不完全な正答」

にとどまる場面が多く見受けられます。

 

 

つまり、今後の研究では

「どうやって少ないリソースで柔軟に

推論できるか」を模索する必要があるわけです。

 

 

仮に今後、

ARC-AGI-2を大きく突破するようなAIが出てきても、

その先にはARC-AGI-3のような新たな

ベンチマークが待ち受けるかもしれません。

 

 

AGIとは何をどこまで指すのか、

という哲学的な問題は依然として

議論が続いており、

 

ほんの一部のタスクを解けるように

なっただけでは「汎用」とは

呼べないという意見も根強いからです。

 

 

とはいえ、

この研究が示す意義は非常に大きいでしょう。

 

 

AIにとって“当たり前のようで難しい

”分野をあえて可視化し、

次なる突破口を探る道筋を提示したからです。

 

 

実際、多くの研究者が

「記号の意味を取り扱う理論」や

「文脈を見極める推論アルゴリズム」などの

新しいアイデアに着手し始めています。

 

 

単純な“データの量×モデルの巨大化”

路線が限界を迎えつつある今、

 

ARC-AGI-2が次世代AIの可能性を

再考するきっかけになることは間違いありません。

 

 

要するに、

このテストで明確になったのは

「人間が普段何気なくこなしている

柔軟性や効率性を、

 

AIがいかに模倣できていないか」という点です。

 

 

AGIへの道のりは決して楽ではありませんが、

だからこそ真のブレイクスルーが起きたときの

衝撃は計り知れないともいえます。

 

 

今、私たちが見る“本物の汎用人工知能”は

どんな姿なのか。

 

 

ARC-AGI-2という新たなハードルが、

その疑問を一層刺激し、

 

研究者たちの挑戦心を

かき立てているように思えます。

 

  

<参考:川勝康弘>

 

 




最新記事
月別
ブログトップに戻る

TOPページに戻る