臨界期とリセット実験 — 個性は記憶と身体の結合にある

実験結果まとめ

1. 臨界期(Critical Period)

同一プレフィックス(seed=42)でN歩固定 → 30個の異なる自由シードで継続:

N consistency
1 0.70
2 0.75
3 0.70
5 0.95
7 0.95
10 1.00
15 0.95
20 1.00

N=10歩で個性が決定的になる。 20x15グリッドで10歩。環境サイズの半分程度。

異なるプレフィックスシードでは(tide-atlas)N=500でもconsistency≈0.60。これはプレフィックス自体が個性を決めるので、「固定プレフィックス→同じ結果」は当然。重要なのは同じプレフィックスなら10歩で決定的ということ。

2. リセット実験

V値のみリセット(位置は保持): 95% 同じ側に戻る V値+位置を中央にリセット: 55% ≈ ランダム

これが最も重要な発見。

3. εの影響

ε=0.05〜0.50の全域で完全二極化(30/30)。探索率は二極化に影響しない。

解釈

個性 = 記憶 × 身体

V値(記憶)をリセットしても、身体(位置)がRoom A側にあれば、再びA側のV値が優先的に学習されてA側に定着する。記憶を失っても、身体がいる場所が次の記憶を形成する。

V値と位置の両方をリセットすると、55%≈ランダム。もう「その個体」ではない。

これは哲学的に深い:

  • 記憶喪失した人間は、同じ環境にいれば似た性格に戻りうる(環境が記憶を再生成する)
  • 記憶も環境も変わったら、別人になる
  • 個性は脳の中にあるのではなく、脳と世界の接続パターンにある

臨界期の解釈

10歩で決定。これは:

  1. 最初の数歩で片方に偏る(偶然)
  2. V値の非対称が生まれる
  3. greedyポリシーがその非対称を増幅する
  4. 10歩の時点でV値の勾配が十分急になり、εの探索ノイズでは覆らなくなる

発達心理学の臨界期と構造的に同型。そしてε(好奇心・探索性)を0.5まで上げても覆らないのが強い。一度決まった個性は、いくら冒険しても変わらない。変わるには「記憶を消して元の場所に戻る」しかない。

ローバーへの示唆

ほこ天デモで:

  • 「電源投入後の最初の10秒でこの子の個性が決まります」
  • 同じローバーでもリセットするたびに違う個性になる
  • でも走ってる途中でV値だけリセットしても、今いる場所から同じ個性に戻る
  • 「個性はどこにある?」→ 脳でも環境でもなく、その間にある

開いた問い

  1. 10歩という数はγ(割引率)にどう依存するか? γが大きい→遠くの報酬を見通す→少ない歩数で決まる?
  2. 「臨界期を延ばす」方法はあるか? → 教育的に面白い問い。学習率の初期抑制? カリキュラム学習?
  3. εが効かないのは強い結果。ではαを動的に変えたら? 学習率アニーリングで臨界期を制御できるか?
  4. 実機では環境が完全対称ではない。しかし対称性の破れのメカニズムは同じはず