- 私たちは表情や声のトーン、年齢や場の雰囲気を合わせて「今この人はどういう状態か」を判断します。
- AIアバターの不一致は、言葉の意味が破綻している場合は特に低く評価されるが、年齢や発言のズレは完全には否定されません。
- 理解はすぐ結論を出すのではなく、意味をつなごうとする柔軟な解釈の過程です。
AIが作った「人のふるまい」は、どこまで社会的に通じるのか
私たちは日常の中で、相手の言葉だけを聞いて理解しているわけではありません。
表情、声の調子、年齢や性別の印象、場の空気。そうした複数の手がかりを、ほとんど無意識のうちに組み合わせながら、「この人は今、どういう状態なのか」「この発言は自然かどうか」を判断しています。
たとえば、笑顔でとても悲しい出来事を語られたとき。
あるいは、明らかに子どもに見える人が、大人向けの行動を当たり前のように語ったとき。
私たちはそこに、説明しにくい違和感を覚えます。
今回紹介する研究は、そうした社会的な違和感がどのように生まれるのかを、少し変わった方法で調べたものです。
研究を行ったのは、ドイツのバンベルク大学(University of Bamberg)心理学研究所の研究者です。この研究では、人間の俳優ではなく、AIが生成したアバター動画が使われました。
社会的な理解は「統合」の作業である
人の理解は、単一の情報から成り立っているわけではありません。
表情、声、言葉の内容、そして「その人がどういう人に見えるか」という社会的カテゴリー。これらを統合することで、私たちは相手を理解しています。
心理学では、こうした統合がうまくいかない場面、つまり「一致しない情報」が提示されたときに、どんな反応が起きるかがよく研究されてきました。
ただし、従来の研究では、文章と写真を別々に見せるなど、現実とは少し離れた刺激が使われることも多くありました。
そこでこの研究では、AI技術を使い、より自然に近い形で情報が同時に提示される状況を作ろうとしました。
AIアバターが語る「ちょっとおかしな自己紹介」
研究で使われたのは、AIによって作られた人物アバターの短い動画です。
それぞれのアバターは、年齢や性別、表情が設定されており、自分について一文だけ話します。
ここで重要なのは、その内容が場合によって「合っている」場合と「合っていない」場合があることです。
たとえば、
-
子どもに見える人物が、年齢に合った発言をする場合
-
同じ人物が、年齢からすると不自然に思える発言をする場合
また、
-
悲しそうな表情で、悲しい出来事を語る場合
-
悲しそうな表情で、うれしい出来事を語る場合
さらに、意味として明らかにおかしい文章(言語的に破綻している文)も含まれていました。
参加者は、こうした動画を見たあとで、
-
その発言がどれくらい「もっともらしく感じられるか」
-
どれくらい「感情的な強さ」を感じたか
を評価しました。
違和感は、種類によって現れ方が違う
結果から見えてきたのは、とても整理されたパターンでした。
まず、すべてが自然に一致している場合。
年齢や表情、言葉の内容が合っているとき、発言は高く「もっともらしい」と評価されました。これは直感どおりです。
一方で、不一致がある場合には、その種類によって反応が変わりました。
言葉の意味そのものが壊れている場合、評価は極端に低くなりました。
この場合、参加者はほとんど迷わず「ありえない」と判断しています。
それに比べると、
年齢や性別と発言内容が合っていない場合、あるいは表情と発言内容が食い違っている場合は、評価は下がるものの、完全に否定されるわけではありませんでした。
つまり、人は社会的なズレについては、ある程度まで解釈の余地を残しているように見えます。
感情の強さは、また別の話になる
もう一つ興味深いのは、「感情の強さ」の評価です。
表情がはっきりしている動画は、内容が合っているかどうかに関わらず、感情的に強いと感じられやすい傾向がありました。
逆に、年齢や性別と発言が合っていない場合は、「もっともらしさ」は下がっても、感情の強さはあまり変わりません。
言い換えると、
-
これは本当っぽいかどうか
-
これは感情的にどれくらい強いか
は、必ずしも同じ基準で判断されていない、ということです。
「理解できない」ではなく「どう理解するか」
この研究が示しているのは、人が違和感に出会ったとき、すぐに判断を止めているわけではない、という点です。
言葉が完全に壊れている場合は別として、
社会的なズレや感情のズレについては、「何か理由があるのかもしれない」「皮肉かもしれない」といった形で、解釈を続けようとする傾向が見られました。
これは、社会的理解が単なるルール適用ではなく、柔軟な調整のプロセスであることを示唆しています。
AI生成刺激が開く、新しい研究の可能性
この研究は規模の小さな予備的なものですが、重要な意味を持っています。
AIによって生成された動画であっても、人はそれを「社会的な対象」として扱い、違和感や納得感を感じ取っていたからです。
AI刺激は、
-
大量に作れる
-
条件を細かく制御できる
-
人間の俳優では難しい操作ができる
という特徴を持っています。
今後、社会的理解やコミュニケーションの研究において、こうした刺激が使われる場面は増えていくでしょう。
ただし同時に、年齢や性別といった社会的カテゴリーを扱う以上、文化的な前提や偏りへの配慮も欠かせません。
それでも、私たちは「人らしさ」を探してしまう
この研究を通して浮かび上がるのは、人がどれほど一貫性を求め、同時に柔軟であろうとする存在か、ということです。
AIが作った顔であっても、
AIが合成した声であっても、
そこに語りと表情があれば、私たちは自然に「理解しよう」とします。
違和感を感じながらも、すぐには切り捨てない。
納得できる理由を、どこかに探し続ける。
社会的理解とは、正しさを即座に決める作業ではなく、
「それでも意味をつなごうとする態度」そのものなのかもしれません。
(出典:Frontiers in Psychology DOI: 10.3389/fpsyg.2025.1505843)

