バリア高さと臨界期×通路幅
実験
実験1: バリア高さ(通路報酬スイープ)
- 対称環境、corridor_width=2固定
- 通路報酬 cr = 0.0, 0.1, 0.2, 0.3, 0.4, 0.49(部屋報酬は0.5)
- 30試行ずつ
実験2: 通路幅×臨界期
- cw=2,4,6,8 × prefix_N=5,10,20,50,100
- 固定prefix(seed=42)後、20種のfree seedで一貫性を測定
結果
バリア高さ → 二極化の連続的制御
| cr | std | 解釈 |
|---|---|---|
| 0.00 | 0.476 | 完全二極化 |
| 0.10 | 0.332 | 強い二極化 |
| 0.20 | 0.175 | 中程度 |
| 0.30 | 0.053 | ほぼ消失 |
| 0.40 | 0.011 | 消失 |
| 0.49 | 0.011 | 消失 |
バリアの高さ(部屋報酬−通路報酬)が個性の強度を連続的に制御する。
- 高さ0.5(cr=0.0): 強い個性
- 高さ0.2(cr=0.3): 個性ほぼなし
- 臨界値は高さ≈0.3付近
これは「環境の不連続性の深さ」が個性の強度を決めるということ。浅い溝は越えられる。深い溝は越えられない。
通路幅×臨界期
| cw | N=5 | N=10 | N=20 | N=50 | N=100 |
|---|---|---|---|---|---|
| 2 | 0.95 | 0.90 | 0.90 | 0.90 | 1.00 |
| 4 | 0.95 | 0.60 | 0.90 | 0.90 | 0.95 |
| 6 | 0.65 | 0.60 | 0.90 | 0.65 | 1.00 |
| 8 | 0.70 | 0.55 | 0.70 | 0.70 | 1.00 |
傾向は見えるがノイズが大きい(prefix seed固定=42の1パターンのみ)。
- cw=2: N=5で既に0.95。臨界期が極めて短い
- cw=8: N=5で0.70、N=100でやっと1.00。臨界期が長い
- 通路幅が広いほど、個性の決定に必要な初期経験が長くなる
仮説: 臨界期 ∝ 通路幅。通路を「横断する」経験が蓄積されるまでは個性が決まらない。
統合的解釈: バリアの2次元パラメトリゼーション
個性の強度は(バリアの高さ, バリアの幅)の2変数で決まる:
- 高さ(報酬差): 二極化するかどうかの閾値を決める
- 幅(通路列数): 二極化が決まるまでの時間(臨界期)を決める
高さ = 不可逆性の深さ(越えたら戻れない度合い) 幅 = 決定までの猶予期間(狭い通路は一瞬で渡れる→すぐ決まる)
実機への示唆
ローバーの環境設計で「個性の出やすさ」をチューニングできる:
- 障害物の高さ(越えにくさ)= バリアの高さ
- 障害物の幅 = バリアの幅
- ほこ天では「仕切り板1枚置くだけで個性が出ます」と実演できる
開いた問い
- バリアの高さの臨界値(≈0.3)はγやεに依存するか?
- 通路幅×臨界期を統計的に確認するには、複数のprefix seedで実験すべき
- バリアが複数ある環境(3部屋以上)ではどうなるか? → 3つの「個性」が出る?
- バリアが動的(時間変化する)場合、個性は再編成されるか? → 可塑性の問題に接続