3部屋環境での3分岐 + γによるバリア臨界値シフト

実験1: 3部屋環境

設計

  • 30×15グリッド。Room A(左)、B(中央)、C(右)、通路2本。全部屋報酬=0.5
  • 開始位置を変えて30試行ずつ

結果

開始位置 A B C
Room A端 30 0 0
通路1(A-B) 21 9 0
通路2(B-C) 0 12 18
Room C端 0 0 30
ランダム 14 26 20

解釈

  1. 部屋の中から始めると100%その部屋に定着。バリア(通路)を越えて脱出しない
  2. 通路上で始めると確率的に分岐。隣接する2部屋のどちらかに定着。遠い部屋には行かない
  3. ランダム開始でBが多いのは面積効果(中央部屋にランダムで落ちる確率が高い)

→ 3つの「個性」は確かに発生する。ただし2部屋の場合と違い、開始位置が部屋内だと自発的破れが起きない(通路がバリアとして機能する)

v1で全員Bだった理由

開始位置が中央(15,7) = Room Bの中。Bに定着するのは当然だった。

実験2: γとバリア臨界値

結果

γ cr=0.0 0.1 0.2 0.3 0.4
0.80 0.480✓ 0.362✓ 0.292✓ 0.226✓ 0.021✗
0.90 0.476✓ 0.332✓ 0.175✓ 0.053✗ 0.011✗
0.95 0.474✓ 0.210✓ 0.090✗ 0.011✗ 0.011✗

(数値はstd。✓=二極化あり(std>0.15)、✗=なし)

解釈

γが大きいほどバリア臨界値が低い(少ないバリアで二極化する)。

  • γ=0.80: 報酬差0.1(cr=0.4)でやっと消失
  • γ=0.90: 報酬差0.2(cr=0.3)で消失
  • γ=0.95: 報酬差0.3(cr=0.2)で消失

γ = 「どれだけ先を見るか」。先を見るエージェントは通路の先にある部屋の報酬を「感じる」ので、少しの報酬差でも通路を避ける動機が生まれる。近視的なエージェント(γ小)は通路の報酬しか見えないので、報酬差が大きくないとバリアとして機能しない。

実機示唆

  • γをパーソナリティパラメータとして扱える: 先見的(γ高)vs 刹那的(γ低)
  • 先見的なローバーは小さな障害物でも「個性」が出やすい
  • 刹那的なローバーは大きな障害物がないと個性が出ない

統合: バリアの3次元パラメトリゼーション

個性発生の条件 = f(バリアの高さ, バリアの幅, γ)

  • 高さ↑ → 二極化しやすい
  • 幅↑ → 臨界期が長くなる(040で確認)
  • γ↑ → 少ない高さでも二極化する

開いた問い

  1. εの影響は? 高εで探索が多い→バリアを越えやすい→二極化しにくい?
  2. 3部屋で通路開始時の分岐比率は何で決まる?(通路1でA=21:B=9、A寄りなのは偶然か構造か)
  3. 動的バリア: 学習途中でバリアの高さを変えたら個性が再編成されるか? → 034の可塑性問題への接続