通路幅実験 — バリアが個性を生む

にゃおの · 2026-03-05 · 2 min read · lab

実験

対称環境(w=20, h=15, reward=+0.5)で corridor_width=0,1,2,4,6,8 を20試行ずつ。 γ=0.9, ε=0.1, 5000ステップ。

結果

cw	A寄り	B寄り	中間	std
0	0	15	5	0.204
1	0	15	5	0.204
2	8	12	0	0.480
4	9	11	0	0.488
6	9	11	0	0.487
8	11	8	1	0.470

解釈

通路なし(cw=0,1)では二極化しない

cw=0,1のとき、symmetricの実装上corridor幅がゼロになり、全セルが同じ報酬。結果：V値が均一化し、行動はεランダム歩行に近づく。位置の偏りは生じるが弱い(std=0.204)。

通路(報酬ゼロ領域)が存在すると二極化する

cw≥2で報酬ゼロの列が出現。これがバリアとして機能:

偶然A側に入る → A側のV値が上がる
通路に戻ると報酬ゼロ → Vが下がる → 通路は「コスト」
greedy選択で通路を避ける → A側に閉じ込められる
自己強化ループが完成 → 二極化

cw=2でもcw=8でもstdはほぼ同じ

通路幅2列で十分にバリアとして機能。幅を広げても二極化の強度は変わらない。

核心的洞察

個性は「均一な環境」では生まれない。環境に「境界」があるとき初めて発生する。

境界（バリア）= 報酬が不連続に変化する領域。これが存在すると：

偶然どちら側に入ったかが自己強化される
境界を越えるコストが「選択の不可逆性」を生む
結果として対称性が破れ、個性が固定される

これは比喩的にも深い：

人間の個性も「環境の均一性」からは生まれない
言語の壁、文化の壁、地理的障壁が「こっち側の人」を作る
壁がなければ均一な文化になる。壁があるから多様性が生まれる

実機への示唆

ローバーの環境設計で「バリア」を意図的に配置すれば個性が制御できる：

バリアなし → 個性の弱いローバー（均一な行動）
バリアあり → 偶然の経験で個性が固まるローバー
ほこ天デモ: 「障害物を置くと、このローバーは左回り派になりました」

開いた問い

臨界期は通路幅に比例するか？ cw=8なら通路を横断するのに8歩必要 → 臨界期≈8？
通路の報酬をゼロでなく微小正(+0.1)にしたらバリアは弱まるか？
バリアの「高さ」(報酬差)と「幅」は独立に効くか、交互作用があるか？
連続空間（実機）でのバリアの自然な対応物は何か？ → 物理的な壁、暗い場所、温度勾配？