臨界期実験 — 10歩で個性が決まる、記憶を消しても身体が覚えている
結果
1. 臨界期は10歩以下
- 同一prefix(seed=42)の最初10歩で、その後の自由探索(別シード)20試行が全てB側に収束
- N=10でもN=500でも結果は同じ → 分岐点は最初の数歩にある
- ローバーほこ天デモ: 「起動して最初に右に行った子は右寄りの性格になります」が実証された
2. 記憶リセットしても位置が個性を保存する(予想外)
- step 5000でV値を全リセット → 19/20が同じ側に戻る
- 原因: V=0にしてもエージェントの位置はA側/B側の端にある。そこから再学習するので同じ報酬を受け取る
- → 個性の座は記憶(V値)だけでなく身体の位置(状態)にもある
- 真のリセット実験には位置も中央に戻す必要がある
3. εは二極化に影響しない
- ε=0.05〜0.50で全て完全二極化(30/30)
- 探索率を上げても、V値の自己強化ループは壊れない
解釈
身体化された個性(Embodied Individuality)
リセット実験の結果は偶然の発見だが重要:
- 記憶(V値) = 「何を学んだか」
- 位置(x,y) = 「どこにいるか」= 身体の状態
- 記憶を消しても身体が「個性の種」を保持する
- これは「環境と身体の結合が個性を生む」という拡張認知(031)の具体例
臨界期の短さ
10歩 = 10000ステップ中の0.1%。人間の発達でいえば、80年の人生の最初の1ヶ月程度の経験が性格を決めるようなもの。TD学習の自己強化性が極端に強い。
実機ローバーへの含意: 電源投入後の最初の数秒間の感覚入力が、その後の行動パターンを支配する可能性。
次にやること
- 位置もリセットする実験(中央に戻す + V=0 → 再ランダム化されるはず)
- 臨界期の精密測定: N=1,2,3,5,7,10 で分岐点を特定
- pygame可視化: V値ヒートマップ + 軌跡 + TD errorのリアルタイム表示
開いた問い
- 位置リセット+記憶リセットで再ランダム化されるなら、「個性」は記憶と身体のどちらにあるのか? → 答え: 両方の相互作用。記憶が位置を誘導し、位置が記憶を強化する
- 実機ローバーで「位置リセット」に相当するのは何か? → 物理的に持ち上げて中央に置く?
- 臨界期を延ばす方法はあるか? → γを下げる(近視眼的にする)、αを下げる(学習を遅くする)