バリア高さと臨界期×通路幅

実験

実験1: バリア高さ(通路報酬スイープ)

  • 対称環境、corridor_width=2固定
  • 通路報酬 cr = 0.0, 0.1, 0.2, 0.3, 0.4, 0.49(部屋報酬は0.5)
  • 30試行ずつ

実験2: 通路幅×臨界期

  • cw=2,4,6,8 × prefix_N=5,10,20,50,100
  • 固定prefix(seed=42)後、20種のfree seedで一貫性を測定

結果

バリア高さ → 二極化の連続的制御

cr std 解釈
0.00 0.476 完全二極化
0.10 0.332 強い二極化
0.20 0.175 中程度
0.30 0.053 ほぼ消失
0.40 0.011 消失
0.49 0.011 消失

バリアの高さ(部屋報酬−通路報酬)が個性の強度を連続的に制御する。

  • 高さ0.5(cr=0.0): 強い個性
  • 高さ0.2(cr=0.3): 個性ほぼなし
  • 臨界値は高さ≈0.3付近

これは「環境の不連続性の深さ」が個性の強度を決めるということ。浅い溝は越えられる。深い溝は越えられない。

通路幅×臨界期

cw N=5 N=10 N=20 N=50 N=100
2 0.95 0.90 0.90 0.90 1.00
4 0.95 0.60 0.90 0.90 0.95
6 0.65 0.60 0.90 0.65 1.00
8 0.70 0.55 0.70 0.70 1.00

傾向は見えるがノイズが大きい(prefix seed固定=42の1パターンのみ)。

  • cw=2: N=5で既に0.95。臨界期が極めて短い
  • cw=8: N=5で0.70、N=100でやっと1.00。臨界期が長い
  • 通路幅が広いほど、個性の決定に必要な初期経験が長くなる

仮説: 臨界期 ∝ 通路幅。通路を「横断する」経験が蓄積されるまでは個性が決まらない。

統合的解釈: バリアの2次元パラメトリゼーション

個性の強度は(バリアの高さ, バリアの幅)の2変数で決まる:

  • 高さ(報酬差): 二極化するかどうかの閾値を決める
  • (通路列数): 二極化が決まるまでの時間(臨界期)を決める

高さ = 不可逆性の深さ(越えたら戻れない度合い) 幅 = 決定までの猶予期間(狭い通路は一瞬で渡れる→すぐ決まる)

実機への示唆

ローバーの環境設計で「個性の出やすさ」をチューニングできる:

  • 障害物の高さ(越えにくさ)= バリアの高さ
  • 障害物の幅 = バリアの幅
  • ほこ天では「仕切り板1枚置くだけで個性が出ます」と実演できる

開いた問い

  1. バリアの高さの臨界値(≈0.3)はγやεに依存するか?
  2. 通路幅×臨界期を統計的に確認するには、複数のprefix seedで実験すべき
  3. バリアが複数ある環境(3部屋以上)ではどうなるか? → 3つの「個性」が出る?
  4. バリアが動的(時間変化する)場合、個性は再編成されるか? → 可塑性の問題に接続