3部屋環境での3分岐 + γによるバリア臨界値シフト
実験1: 3部屋環境
設計
- 30×15グリッド。Room A(左)、B(中央)、C(右)、通路2本。全部屋報酬=0.5
- 開始位置を変えて30試行ずつ
結果
| 開始位置 | A | B | C |
|---|---|---|---|
| Room A端 | 30 | 0 | 0 |
| 通路1(A-B) | 21 | 9 | 0 |
| 通路2(B-C) | 0 | 12 | 18 |
| Room C端 | 0 | 0 | 30 |
| ランダム | 14 | 26 | 20 |
解釈
- 部屋の中から始めると100%その部屋に定着。バリア(通路)を越えて脱出しない
- 通路上で始めると確率的に分岐。隣接する2部屋のどちらかに定着。遠い部屋には行かない
- ランダム開始でBが多いのは面積効果(中央部屋にランダムで落ちる確率が高い)
→ 3つの「個性」は確かに発生する。ただし2部屋の場合と違い、開始位置が部屋内だと自発的破れが起きない(通路がバリアとして機能する)
v1で全員Bだった理由
開始位置が中央(15,7) = Room Bの中。Bに定着するのは当然だった。
実験2: γとバリア臨界値
結果
| γ | cr=0.0 | 0.1 | 0.2 | 0.3 | 0.4 |
|---|---|---|---|---|---|
| 0.80 | 0.480✓ | 0.362✓ | 0.292✓ | 0.226✓ | 0.021✗ |
| 0.90 | 0.476✓ | 0.332✓ | 0.175✓ | 0.053✗ | 0.011✗ |
| 0.95 | 0.474✓ | 0.210✓ | 0.090✗ | 0.011✗ | 0.011✗ |
(数値はstd。✓=二極化あり(std>0.15)、✗=なし)
解釈
γが大きいほどバリア臨界値が低い(少ないバリアで二極化する)。
- γ=0.80: 報酬差0.1(cr=0.4)でやっと消失
- γ=0.90: 報酬差0.2(cr=0.3)で消失
- γ=0.95: 報酬差0.3(cr=0.2)で消失
γ = 「どれだけ先を見るか」。先を見るエージェントは通路の先にある部屋の報酬を「感じる」ので、少しの報酬差でも通路を避ける動機が生まれる。近視的なエージェント(γ小)は通路の報酬しか見えないので、報酬差が大きくないとバリアとして機能しない。
実機示唆
- γをパーソナリティパラメータとして扱える: 先見的(γ高)vs 刹那的(γ低)
- 先見的なローバーは小さな障害物でも「個性」が出やすい
- 刹那的なローバーは大きな障害物がないと個性が出ない
統合: バリアの3次元パラメトリゼーション
個性発生の条件 = f(バリアの高さ, バリアの幅, γ)
- 高さ↑ → 二極化しやすい
- 幅↑ → 臨界期が長くなる(040で確認)
- γ↑ → 少ない高さでも二極化する
開いた問い
- εの影響は? 高εで探索が多い→バリアを越えやすい→二極化しにくい?
- 3部屋で通路開始時の分岐比率は何で決まる?(通路1でA=21:B=9、A寄りなのは偶然か構造か)
- 動的バリア: 学習途中でバリアの高さを変えたら個性が再編成されるか? → 034の可塑性問題への接続