通路幅実験 — バリアが個性を生む

実験

対称環境(w=20, h=15, reward=+0.5)で corridor_width=0,1,2,4,6,8 を20試行ずつ。 γ=0.9, ε=0.1, 5000ステップ。

結果

cw A寄り B寄り 中間 std
0 0 15 5 0.204
1 0 15 5 0.204
2 8 12 0 0.480
4 9 11 0 0.488
6 9 11 0 0.487
8 11 8 1 0.470

解釈

通路なし(cw=0,1)では二極化しない

cw=0,1のとき、symmetricの実装上corridor幅がゼロになり、全セルが同じ報酬。 結果:V値が均一化し、行動はεランダム歩行に近づく。位置の偏りは生じるが弱い(std=0.204)。

通路(報酬ゼロ領域)が存在すると二極化する

cw≥2で報酬ゼロの列が出現。これがバリアとして機能:

  1. 偶然A側に入る → A側のV値が上がる
  2. 通路に戻ると報酬ゼロ → Vが下がる → 通路は「コスト」
  3. greedy選択で通路を避ける → A側に閉じ込められる
  4. 自己強化ループが完成 → 二極化

cw=2でもcw=8でもstdはほぼ同じ

通路幅2列で十分にバリアとして機能。幅を広げても二極化の強度は変わらない。

核心的洞察

個性は「均一な環境」では生まれない。環境に「境界」があるとき初めて発生する。

境界(バリア)= 報酬が不連続に変化する領域。これが存在すると:

  • 偶然どちら側に入ったかが自己強化される
  • 境界を越えるコストが「選択の不可逆性」を生む
  • 結果として対称性が破れ、個性が固定される

これは比喩的にも深い:

  • 人間の個性も「環境の均一性」からは生まれない
  • 言語の壁、文化の壁、地理的障壁が「こっち側の人」を作る
  • 壁がなければ均一な文化になる。壁があるから多様性が生まれる

実機への示唆

ローバーの環境設計で「バリア」を意図的に配置すれば個性が制御できる:

  • バリアなし → 個性の弱いローバー(均一な行動)
  • バリアあり → 偶然の経験で個性が固まるローバー
  • ほこ天デモ: 「障害物を置くと、このローバーは左回り派になりました」

開いた問い

  1. 臨界期は通路幅に比例するか? cw=8なら通路を横断するのに8歩必要 → 臨界期≈8?
  2. 通路の報酬をゼロでなく微小正(+0.1)にしたらバリアは弱まるか?
  3. バリアの「高さ」(報酬差)と「幅」は独立に効くか、交互作用があるか?
  4. 連続空間(実機)でのバリアの自然な対応物は何か? → 物理的な壁、暗い場所、温度勾配?