- AIは文章の問題は得意だが、画像を使う問題では力が落ちやすいと報告されました。
- 共通の知能のような性質がある一方で、長く考えすぎると逆効果になることも分かりました。
- AIの知能は人間と同じでもなく完全に別物でもなく、基本的な能力を詳しく調べることが今後の課題です。
最近のAIは、驚くほど多くのことができるようになりました。
数学の難問を解く。
高度なプログラムを書く。
大学レベルの試験問題に答える。
こうした能力を見ると、「AIは人間の知能に近づいているのではないか」と感じる人も少なくありません。
しかし、その一方で奇妙な現象もよく知られています。
難しい問題は解けるのに、人間ならほとんど誰でもできる簡単な問題で間違えることがあるのです。
なぜこのようなことが起きるのでしょうか。
AIは本当に人間のように「考えている」のでしょうか。
それとも、まったく別の仕組みで問題を解いているのでしょうか。
この疑問に答えようとした研究が発表されました。
研究者たちは、AIの能力を調べるために、これまでとは少し違う方法を使いました。
それは、人間の知能を調べる心理テストをAIに受けさせるという方法です。
研究を行ったのは、韓国のKAIST(韓国科学技術院)の研究チームです。
彼らは、人間の認知能力を測定するために長く使われてきた神経心理学テストをAI用に作り直し、大規模言語モデルの能力を調べました。
すると、現在のAIの知能の特徴が、これまでのベンチマークでは見えにくかった形で浮かび上がってきました。
AIにも「共通の知能」のようなものがある
まず研究者たちは、AIの能力に共通する構造を調べました。
数学
プログラミング
知識問題
科学問題
このようなさまざまなテストの結果を統計的に分析すると、ある共通の要因が見えてきます。
多くのAIモデルでは、
「ある能力が高いモデルは、ほかの能力も高い」
という傾向があるのです。
研究では、156種類のAIモデルのベンチマーク結果を分析しました。
その結果、ほとんどの能力を説明する一つの共通因子が存在することが確認されました。
これは、人間の心理学で言われる「一般知能(g因子)」に似た特徴です。
つまり現在のAIにも、
「全体的な能力の高さ」
のようなものがある可能性があります。
しかし、この分析には重要な問題があります。
現在のベンチマークは、基本的に「問題を解けたかどうか」を測るものです。
そのため、
AIがどのような認知能力を使って問題を解いているのか
までは分かりません。
そこで研究者たちは、もっと基本的な認知能力を直接調べる方法を考えました。
人間の認知テストをAIに受けさせる
研究チームは「NeuroCognition」という新しい評価方法を作りました。
これは、人間の認知能力を測定するために心理学や神経科学で使われてきたテストを、AI向けに作り直したものです。
使われたテストは3種類です。
抽象的推論
最初のテストは「レーヴン進歩的マトリックス」という問題です。
これはIQテストとしても有名な課題です。
3×3の図形のパターンが並んでいて、
右下の1つだけが空白になっています。
行や列の規則を見つけて、
空白に入る図形を選ぶという問題です。
この課題は、知識ではなく純粋な推論能力を測るためのテストとして知られています。
作業記憶
2つ目のテストは「空間作業記憶テスト」です。
複数の箱の中にトークンが隠されており、
一つずつ箱を開けながら探していきます。
ただし、一度トークンが見つかった箱には、
同じ試行の中ではもうトークンは入りません。
そのため、
・どの箱を開けたか
・どこにトークンがあったか
を覚えながら効率よく探す必要があります。
これは、人間の認知科学でいう**作業記憶(ワーキングメモリ)**の能力を測る課題です。
認知的柔軟性
3つ目は「ウィスコンシンカード分類テスト」です。
カードを
色
形
数
のどれかのルールで分類します。
ただし、
どのルールが正しいかは最初に教えられません。
正しいかどうかのフィードバックを頼りに、
ルールを推測しなければなりません。
さらに、途中でルールが突然変わります。
そのため、
・仮説を立てる
・間違えたら修正する
・ルール変更に気づく
という能力が必要になります。
これは認知的柔軟性と呼ばれる能力を測るテストです。
AIは文章では強いが、画像では弱い
研究では、最新のAIモデルをこれらのテストで評価しました。
その結果、いくつかの特徴が見えてきました。
まずはっきりしていたのは、
文章だけの問題ではAIは強いということです。
しかし、画像が含まれる問題になると、
性能が大きく下がりました。
つまりAIは、
・テキスト情報
・視覚情報
を組み合わせて考えることが、まだ得意ではない可能性があります。
問題が難しくなると急に弱くなる
もう一つの特徴は、問題が少し複雑になるだけで性能が急激に下がることでした。
特に、作業記憶を必要とする課題ではその傾向が強く見られました。
簡単な条件では多くのAIが完全に解けます。
しかし、箱の数を増やすなどして難易度を上げると、
急に成功率が下がるモデルが多かったのです。
これは、AIが
「長い状態を維持すること」
にまだ弱い可能性を示しています。
逆に得意な能力もある
興味深いことに、
AIが比較的得意だった能力もありました。
それは「ルール推測と切り替え」です。
ウィスコンシンカード分類テストでは、
多くのAIモデルが人間の最低基準を超える結果を出しました。
つまりAIは、
・仮説を立てる
・フィードバックを使う
・ルールを更新する
といった処理には比較的強い可能性があります。
「考えすぎ」が逆効果になることもある
研究ではもう一つ面白い結果が出ました。
AIに「長く考えさせる」設定を使うと、
必ずしも成績が良くなるわけではなかったのです。
むしろ、
・余計に複雑な仮説を作る
・単純なルールを見落とす
といった失敗が増えることがありました。
つまりAIでは、
「深く考えること」
が必ずしも良い戦略とは限らない可能性があります。
AIは人間と同じ知能なのか
この研究の結果は、ある重要なことを示しています。
現在のAIは、
人間と完全に同じ種類の知能
を持っているわけではないということです。
AIは
・特定の問題では非常に強い
・しかし基本的な認知処理では弱い場合がある
という特徴を持っています。
ただし同時に、
人間の認知能力と部分的に似ている側面もあることが分かりました。
AIの能力は、人間の知能と完全に一致するわけではありません。
しかし、まったく別物でもない。
その中間にあるような存在なのかもしれません。
AIの知能を理解するために
研究者たちは、今回の研究から重要な示唆が得られると述べています。
現在のAI評価は、多くの場合、
問題が解けるかどうか
だけを見ています。
しかし、それだけではAIの認知能力は十分に理解できません。
今回のように
・推論
・記憶
・柔軟性
といった基本的な能力を調べることで、
AIの知能の構造がより詳しく見えてくる可能性があります。
AIは人間のように考えているのか。
それとも、まったく違う方法で問題を解いているのか。
この問いの答えは、まだ完全には分かっていません。
しかし少なくとも言えるのは、
現在のAIの知能は
「人間と同じではないが、まったく無関係でもない」
ということです。
そして、この微妙な関係を理解することが、
これからのAI研究の重要なテーマになっていくのかもしれません。
(出典:arXiv DOI: 10.48550/arXiv.2603.02540)

