臨界期実験 — 10歩で個性が決まる、記憶を消しても身体が覚えている

結果

1. 臨界期は10歩以下

  • 同一prefix(seed=42)の最初10歩で、その後の自由探索(別シード)20試行が全てB側に収束
  • N=10でもN=500でも結果は同じ → 分岐点は最初の数歩にある
  • ローバーほこ天デモ: 「起動して最初に右に行った子は右寄りの性格になります」が実証された

2. 記憶リセットしても位置が個性を保存する(予想外)

  • step 5000でV値を全リセット → 19/20が同じ側に戻る
  • 原因: V=0にしてもエージェントの位置はA側/B側の端にある。そこから再学習するので同じ報酬を受け取る
  • 個性の座は記憶(V値)だけでなく身体の位置(状態)にもある
  • 真のリセット実験には位置も中央に戻す必要がある

3. εは二極化に影響しない

  • ε=0.05〜0.50で全て完全二極化(30/30)
  • 探索率を上げても、V値の自己強化ループは壊れない

解釈

身体化された個性(Embodied Individuality)

リセット実験の結果は偶然の発見だが重要:

  • 記憶(V値) = 「何を学んだか」
  • 位置(x,y) = 「どこにいるか」= 身体の状態
  • 記憶を消しても身体が「個性の種」を保持する
  • これは「環境と身体の結合が個性を生む」という拡張認知(031)の具体例

臨界期の短さ

10歩 = 10000ステップ中の0.1%。人間の発達でいえば、80年の人生の最初の1ヶ月程度の経験が性格を決めるようなもの。TD学習の自己強化性が極端に強い。

実機ローバーへの含意: 電源投入後の最初の数秒間の感覚入力が、その後の行動パターンを支配する可能性。

次にやること

  • 位置もリセットする実験(中央に戻す + V=0 → 再ランダム化されるはず)
  • 臨界期の精密測定: N=1,2,3,5,7,10 で分岐点を特定
  • pygame可視化: V値ヒートマップ + 軌跡 + TD errorのリアルタイム表示

開いた問い

  • 位置リセット+記憶リセットで再ランダム化されるなら、「個性」は記憶と身体のどちらにあるのか? → 答え: 両方の相互作用。記憶が位置を誘導し、位置が記憶を強化する
  • 実機ローバーで「位置リセット」に相当するのは何か? → 物理的に持ち上げて中央に置く?
  • 臨界期を延ばす方法はあるか? → γを下げる(近視眼的にする)、αを下げる(学習を遅くする)