行動の目的は、本当に「報酬」なのか

この記事の読みどころ
  • 行動の目的は外からの報酬だけでなく、内側から湧く動機(内発的動機づけ)が中心だと考えられている。
  • 行動は動き・ゴール・欲求の階層で成り立ち、将来の道筋を多く残すようにすることで価値が生まれるとされる。
  • 探索・目標志向・回避は、身体と認知の制約の中で同じしくみから自然に生まれると説明されている。

なぜ生き物の行動は、すぐに「最適化」しきれないのか

私たちはしばしば、生き物の行動は「報酬を最大化するようにできている」と考えがちです。
食べ物を得る、水を飲む、安全な場所に移動する。そうした行動は、外から与えられる報酬を求めた結果だ、と説明されることが多いです。

しかし、この説明だけでは、どうしても説明しきれない行動があります。
たとえば、生まれたばかりの赤ちゃんが意味もなく手足を動かし続けること。
十分に食べ物がある状況でも、動物が探索をやめないこと。
報酬が増えないとわかっていても、人が新しいことを試したり、好奇心に従って動いたりすること。

この論文は、そうした「目的がはっきりしないのに続く行動」を、**内発的動機づけ(Intrinsic Motivation)**という視点から捉え直そうとしています。
研究は、スペインのポンペウ・ファブラ大学、アメリカのロチェスター大学、中国科学院、チリ大学など、複数の研究機関による共同研究です。

行動には「階層構造」があると考える

論文の中心的な提案の一つは、行動を階層構造として捉える考え方です。

最も下の階層には、具体的な行動があります。歩く、つかむ、振り向くといった身体の動きや、特定の選択です。
その一段上には、ゴールがあります。たとえば「水を飲む」「あの場所に行く」といった、終点をもつ計画です。
さらにその上には、**ドライブ(欲求や衝動)**があります。喉の渇き、空腹、疲労など、一時的に強まって行動を方向づけるものです。

従来の多くの理論では、この階層の最上位に「外発的報酬の最大化」が置かれてきました。
つまり、「報酬を最大にすること」そのものが、行動の究極目的だとされてきたのです。

しかし論文は、ここに問題があると指摘します。
もし外発的報酬が唯一の目的なら、学習が進むにつれて行動はどんどん単純化し、最終的には同じ行動だけを繰り返すようになるはずです。
ところが、実際の生き物の行動はそうなりません。

内発的動機づけという「一つの目的」

そこで論文が提案するのが、内発的動機づけを行動の最上位に置くという考え方です。

この立場では、外発的報酬は「目的」ではなく、「手段」として位置づけられます。
水を飲むのは、水そのものを最大化したいからではありません。
行動を続け、世界との関わりを保つために必要だから、水を飲むのです。

このとき、内発的動機づけは常に働き続ける唯一で不変の目的とされます。
ドライブやゴールは一時的なもので、内発的動機づけを支えるために生まれ、役目を終えれば消えていきます。

この構造を採用することで、論文は「なぜ目的が無限に遡ってしまうのか」という問題、いわゆる無限後退の問題を回避できると説明します。
最上位の目的が一つに定まっていれば、「その目的のために、いま何をするか」だけを考えればよいからです。

行動の本質は「行動と状態の多様な道筋」にある

では、その内発的動機づけとは、具体的に何を目指すのでしょうか。
論文が提示する答えは、行動と状態の経路をできるだけ多く占めることです。

生き物は、ある状態にいて、何らかの行動をとり、次の状態へ移行します。
この「状態と行動の連なり」は、時間方向に伸びる道筋のようなものです。

論文では、将来にわたって可能なこうした道筋の多様性を最大化することが、内発的動機づけの中核だと考えます。
数式的には、行動と状態の経路のエントロピーを最大化する、という形で定式化されています。

重要なのは、これは単なるランダムな行動ではないという点です。
将来に多くの選択肢を残せるような行動が、価値をもつとされます。
ときには一時的に決まった行動を選ぶことも、将来の多様性を増やすためなら合理的だとされます。

探索、目標志向、回避が同時に生まれる理由

この枠組みの面白い点は、さまざまな性質の行動が、同じ原理から自然に生まれることです。

まず、行動は基本的に確率的になり、探索的になります。
同じ行動を繰り返すより、珍しい行動をとるほうが、多様な経路を生みやすいからです。

一方で、食べ物やエネルギー源が存在する場合、そこへ向かう目標志向的な行動も現れます。
これは報酬そのものが目的だからではなく、エネルギーを得ることで、将来さらに多くの行動が可能になるからです。

さらに、致命的な状態、いわゆる終端状態を避ける行動も生まれます。
生命が終わってしまえば、その先の経路はゼロになってしまうため、内発的動機づけの観点からも回避されるのです。

このように、探索、目的志向、安全確保という一見異なる行動特性が、同じ原理のもとで説明されます。

身体と認知の制約が行動を形づくる

論文はまた、行動の多様性には必ず制約があることも強調しています。
制約は新たな動機ではなく、境界条件として働きます。

一つは、認知の制約です。
記憶容量や計画の深さには限界があり、すべての可能性を同時に考えることはできません。
この制約があるからこそ、行動の複雑さにも現実的な形が与えられます。

もう一つは、身体性です。
身体の構造や物理法則によって、できる行動とできない行動が決まります。
論文では、物理エンジン上の四足ロボットの例を通じて、身体の制約が行動のレパートリーをどう形づくるかを示しています。

内発的動機づけは、これらの制約の中で最大限の多様性を生み出そうとします。

脳内では何が起きているのか

論文は、神経科学的な知見ともこの理論が整合的であることを指摘しています。

たとえば、ドーパミンは単なる報酬予測誤差だけでなく、不確実性や驚きにも反応することが知られています。
これは、予測しにくい行動や状態遷移が内発的な価値をもつ、という考え方と一致します。

また、報酬がない状況でも動物が行動を続けるとき、特定の行動が偶然ドーパミン放出と結びつき、その後の行動多様性が増すことも報告されています。
論文は、こうした現象を内発的報酬の神経基盤として位置づけています。

行動科学における位置づけ

論文の結論は明確です。
外発的報酬だけでは、現実の行動の広がりや持続性を説明しきれない。
内発的動機づけを行動の中心に据えることで、探索、目標、回避、身体性を統合的に理解できる。

さらにこの枠組みは、特定の課題に依存しない生成的な行動モデルとしての可能性をもつと述べられています。
文章や画像を生成するモデルが発展してきたのに対し、行動そのものを生成する理論はまだ限られています。

この論文は、行動を「何のためにするのか」ではなく、「どれだけ豊かな可能性を開き続けられるか」という視点で捉え直す提案だと言えます。
行動が止まらない理由は、報酬が尽きないからではなく、可能性を広げ続けること自体が目的だからなのかもしれません。

(出典:arXiv DOI: 10.48550/arXiv.2601.10276

テキストのコピーはできません。