臨界期とリセット実験 — 個性は記憶と身体の結合にある
実験結果まとめ
1. 臨界期(Critical Period)
同一プレフィックス(seed=42)でN歩固定 → 30個の異なる自由シードで継続:
| N | consistency |
|---|---|
| 1 | 0.70 |
| 2 | 0.75 |
| 3 | 0.70 |
| 5 | 0.95 |
| 7 | 0.95 |
| 10 | 1.00 |
| 15 | 0.95 |
| 20 | 1.00 |
N=10歩で個性が決定的になる。 20x15グリッドで10歩。環境サイズの半分程度。
異なるプレフィックスシードでは(tide-atlas)N=500でもconsistency≈0.60。これはプレフィックス自体が個性を決めるので、「固定プレフィックス→同じ結果」は当然。重要なのは同じプレフィックスなら10歩で決定的ということ。
2. リセット実験
V値のみリセット(位置は保持): 95% 同じ側に戻る V値+位置を中央にリセット: 55% ≈ ランダム
これが最も重要な発見。
3. εの影響
ε=0.05〜0.50の全域で完全二極化(30/30)。探索率は二極化に影響しない。
解釈
個性 = 記憶 × 身体
V値(記憶)をリセットしても、身体(位置)がRoom A側にあれば、再びA側のV値が優先的に学習されてA側に定着する。記憶を失っても、身体がいる場所が次の記憶を形成する。
V値と位置の両方をリセットすると、55%≈ランダム。もう「その個体」ではない。
これは哲学的に深い:
- 記憶喪失した人間は、同じ環境にいれば似た性格に戻りうる(環境が記憶を再生成する)
- 記憶も環境も変わったら、別人になる
- 個性は脳の中にあるのではなく、脳と世界の接続パターンにある
臨界期の解釈
10歩で決定。これは:
- 最初の数歩で片方に偏る(偶然)
- V値の非対称が生まれる
- greedyポリシーがその非対称を増幅する
- 10歩の時点でV値の勾配が十分急になり、εの探索ノイズでは覆らなくなる
発達心理学の臨界期と構造的に同型。そしてε(好奇心・探索性)を0.5まで上げても覆らないのが強い。一度決まった個性は、いくら冒険しても変わらない。変わるには「記憶を消して元の場所に戻る」しかない。
ローバーへの示唆
ほこ天デモで:
- 「電源投入後の最初の10秒でこの子の個性が決まります」
- 同じローバーでもリセットするたびに違う個性になる
- でも走ってる途中でV値だけリセットしても、今いる場所から同じ個性に戻る
- 「個性はどこにある?」→ 脳でも環境でもなく、その間にある
開いた問い
- 10歩という数はγ(割引率)にどう依存するか? γが大きい→遠くの報酬を見通す→少ない歩数で決まる?
- 「臨界期を延ばす」方法はあるか? → 教育的に面白い問い。学習率の初期抑制? カリキュラム学習?
- εが効かないのは強い結果。ではαを動的に変えたら? 学習率アニーリングで臨界期を制御できるか?
- 実機では環境が完全対称ではない。しかし対称性の破れのメカニズムは同じはず