- 人間は言葉から部屋の空間を頭の中に地図のように描くが、AIはそれが十分にできていないことが分かった。
- SpatialTextという新しいテストで、文章だけで空間を理解できるかを測り、視点の変換や空間の統合が難しいことが分かった。
- AIは基本情報や単純な関係は得意でも、視点を変えると正答が難しくなり、頭の中で空間を回転させる能力が弱いという結果だった。
私たちは、言葉を聞くだけで空間を思い浮かべることができます。
たとえば、こんな説明を聞いたとします。
「ベッドの左側にテーブルがあり、その奥に窓があります」
この文章を読むと、多くの人は自然に部屋の様子を頭の中に思い描くはずです。
ベッド、テーブル、窓の位置関係が、まるで地図のように頭の中に並びます。
この能力は、人間にとってとても当たり前のものです。
しかし、近年急速に進歩しているAI――とくに文章を理解したり生成したりする「大規模言語モデル」と呼ばれるAIは、このような空間の理解を本当にできているのでしょうか。
AIは文章を書くことは得意です。
質問にもかなり正確に答えます。
けれど、それは本当に「理解」しているのでしょうか。
それとも、言葉のパターンをうまく使っているだけなのでしょうか。
この疑問を確かめるために、ある研究が行われました。
その結果、AIの能力の意外な特徴が明らかになりました。
人間は言葉から「空間の地図」を作る
心理学の研究では、人間が言葉を理解するとき、頭の中に「空間の地図」を作ることが知られています。
これを
空間メンタルモデル
と呼びます。
たとえば
・家具の配置
・物の左右関係
・前後の位置
・視点が変わったときの方向
などを、頭の中で整理しながら理解しているのです。
そのため人間は
・地図を頭の中で回転させる
・自分の向きが変わると左右が変わることを理解する
・見えていない場所を推測する
といったことができます。
しかしAIの場合、このような能力が本当にあるのかは、これまで十分に調べられていませんでした。
これまでのAIテストの問題
AIの能力を測るテストはいくつもあります。
たとえば
・数学問題
・一般知識
・論理問題
などです。
しかし、これらのテストでは
空間を理解する能力
を独立して測ることができません。
また、画像を使ったAIテストの場合は別の問題があります。
それは
空間理解と視覚認識が混ざってしまう
ということです。
AIが正しく答えたとしても、それが
・画像を見て理解した結果なのか
・空間を推論した結果なのか
区別がつきません。
そこで研究者たちは、
文章だけで空間理解を測る新しいテストを作ることにしました。
SpatialTextという新しい評価テスト
この研究で開発されたのが
SpatialText
という評価フレームワークです。
この研究は、中国の**浙江大学(Zhejiang University)**の研究チームによって行われました。
SpatialTextは、AIが文章だけを使ってどの程度空間を理解できるかを調べるためのテストです。
特徴は、問題の作り方にあります。
研究では、2種類のデータが使われました。
現実の部屋を説明した文章
1つ目は、実際の室内写真をもとにした問題です。
研究では、室内画像データセットから
・寝室
・リビング
・ダイニング
・キッチン
・教室
などの部屋の写真を選びました。
そして研究者が、その部屋の配置を文章で説明します。
たとえば
・机の右側に椅子がある
・窓はベッドの奥にある
・棚は壁の近くにある
といった具合です。
このとき、文章の書き方には3つの種類が用意されました。
視点ベースの説明
「ベッドの左側に机がある」
観察者の視点から説明する方法です。
方角ベースの説明
「机は北側の壁の近くにある」
部屋の方向を基準にする方法です。
混合型
「東側の壁の3時方向に椅子がある」
複数の基準を組み合わせる方法です。
このようにして、AIがどのように空間を理解するかを調べました。
コンピュータが作った論理的な空間
もう一つは、コンピュータが生成した空間問題です。
こちらは、完全に数学的に作られた空間です。
物体の位置は座標で決められます。
たとえば
・AはBの左
・CはAの上
・DはBの右
といった関係です。
さらに
・2次元空間
・3次元空間
の両方が作られました。
また、問題には2種類あります。
完全情報
すべての位置関係が分かる問題。
不完全情報
一部の情報が欠けている問題。
この場合、AIが
「答えが決められない」
と判断できるかも試されました。
空間理解の5つのレベル
研究では、空間推論を5段階の能力に分けて評価しました。
1
基本情報の取得
文章から単純な事実を読み取る。
2
位置関係の理解
物体の左右や前後の関係。
3
視点変換
視点が変わったときの位置関係。
4
物理的制約
物体が見えるかどうかなど。
5
高度な推論
経路計画や仮定の変更など。
つまり、
単純な読解から高度な空間思考まで
AIの能力を細かく調べる仕組みになっています。
AIは「文章の読み取り」は得意
テストの結果、AIは意外な特徴を見せました。
まず、単純な問題では非常に高い正答率でした。
たとえば
・物体の存在
・色
・単純な位置関係
などは、多くのAIがほぼ完璧に答えました。
これは、AIが文章の中から必要な情報を取り出す能力が高いことを示しています。
しかし「視点の変化」で急に弱くなる
ところが、問題が少し複雑になると状況が変わります。
特に難しかったのは
視点の変換
でした。
たとえば
「人が北を向いて寝ているとき、左はどちらか」
というような問題です。
人間なら、頭の中で体の向きを回転させて答えることができます。
しかし多くのAIは、ここで急に正答率が下がりました。
これは
頭の中で空間を回転させる能力
が弱いことを示しています。
AIが使っていた「近道」
さらに研究では、AIの興味深い癖も見つかりました。
AIはときどき、空間を計算するのではなく、
よくある配置を想像して答えてしまう
ことがあったのです。
たとえば
「ベッドは壁の近くにある」
といった、現実でよくある配置です。
研究ではこれを
意味的アンカー効果
と呼んでいます。
つまりAIは
・空間を計算する
のではなく
・よくあるパターンを当てはめる
ことで答えている場合があるのです。
情報が多いと逆に弱くなる
もう一つ面白い結果がありました。
それは
情報が多すぎるとAIの性能が下がる
という現象です。
通常は、情報が多いほど問題は解きやすくなるはずです。
しかしAIの場合、
関係する物体が増えると
・矛盾した推論
・整合性の崩れ
が起きやすくなりました。
これはAIが
全体の空間を一つの地図として統合するのが苦手
であることを示しています。
AIは本当に理解しているのか
今回の研究から見えてきたのは、少し意外な事実です。
AIは
・文章の読み取り
・単純な関係の推論
では非常に高い能力を持っています。
しかし
・視点の変換
・空間の統合
・頭の中での回転
といった能力では、まだ人間に大きく及びません。
つまり現在のAIは、
言葉はとても上手に扱えるが、
その裏にある「空間の地図」を作る能力はまだ弱い
可能性があるのです。
AIの知能の本当の課題
この研究は、AIの限界を示しただけではありません。
むしろ、
AIの次の課題
をはっきりさせました。
AIが本当に世界を理解するためには、
・空間
・身体
・視点
といった、人間の知覚に近い仕組みが必要になるかもしれません。
AIはすでに文章を書く能力では驚くほど進歩しました。
しかし「空間を理解する知能」は、
まだ発展の途中にあるようです。
そして、この能力こそが
人間の知能の核心の一つ
なのかもしれません。
(出典:arXiv DOI: 10.48550/arXiv.2603.03002)

