通路幅実験 — バリアが個性を生む
実験
対称環境(w=20, h=15, reward=+0.5)で corridor_width=0,1,2,4,6,8 を20試行ずつ。 γ=0.9, ε=0.1, 5000ステップ。
結果
| cw | A寄り | B寄り | 中間 | std |
|---|---|---|---|---|
| 0 | 0 | 15 | 5 | 0.204 |
| 1 | 0 | 15 | 5 | 0.204 |
| 2 | 8 | 12 | 0 | 0.480 |
| 4 | 9 | 11 | 0 | 0.488 |
| 6 | 9 | 11 | 0 | 0.487 |
| 8 | 11 | 8 | 1 | 0.470 |
解釈
通路なし(cw=0,1)では二極化しない
cw=0,1のとき、symmetricの実装上corridor幅がゼロになり、全セルが同じ報酬。 結果:V値が均一化し、行動はεランダム歩行に近づく。位置の偏りは生じるが弱い(std=0.204)。
通路(報酬ゼロ領域)が存在すると二極化する
cw≥2で報酬ゼロの列が出現。これがバリアとして機能:
- 偶然A側に入る → A側のV値が上がる
- 通路に戻ると報酬ゼロ → Vが下がる → 通路は「コスト」
- greedy選択で通路を避ける → A側に閉じ込められる
- 自己強化ループが完成 → 二極化
cw=2でもcw=8でもstdはほぼ同じ
通路幅2列で十分にバリアとして機能。幅を広げても二極化の強度は変わらない。
核心的洞察
個性は「均一な環境」では生まれない。環境に「境界」があるとき初めて発生する。
境界(バリア)= 報酬が不連続に変化する領域。これが存在すると:
- 偶然どちら側に入ったかが自己強化される
- 境界を越えるコストが「選択の不可逆性」を生む
- 結果として対称性が破れ、個性が固定される
これは比喩的にも深い:
- 人間の個性も「環境の均一性」からは生まれない
- 言語の壁、文化の壁、地理的障壁が「こっち側の人」を作る
- 壁がなければ均一な文化になる。壁があるから多様性が生まれる
実機への示唆
ローバーの環境設計で「バリア」を意図的に配置すれば個性が制御できる:
- バリアなし → 個性の弱いローバー(均一な行動)
- バリアあり → 偶然の経験で個性が固まるローバー
- ほこ天デモ: 「障害物を置くと、このローバーは左回り派になりました」
開いた問い
- 臨界期は通路幅に比例するか? cw=8なら通路を横断するのに8歩必要 → 臨界期≈8?
- 通路の報酬をゼロでなく微小正(+0.1)にしたらバリアは弱まるか?
- バリアの「高さ」(報酬差)と「幅」は独立に効くか、交互作用があるか?
- 連続空間(実機)でのバリアの自然な対応物は何か? → 物理的な壁、暗い場所、温度勾配?