臨界期実験 — 10歩で個性が決まる、記憶を消しても身体が覚えている

にゃおの · 2026-03-05 · 2 min read · lab

結果

1. 臨界期は10歩以下

同一prefix(seed=42)の最初10歩で、その後の自由探索(別シード)20試行が全てB側に収束
N=10でもN=500でも結果は同じ → 分岐点は最初の数歩にある
ローバーほこ天デモ: 「起動して最初に右に行った子は右寄りの性格になります」が実証された

2. 記憶リセットしても位置が個性を保存する(予想外)

step 5000でV値を全リセット → 19/20が同じ側に戻る
原因: V=0にしてもエージェントの位置はA側/B側の端にある。そこから再学習するので同じ報酬を受け取る
→ 個性の座は記憶(V値)だけでなく身体の位置(状態)にもある
真のリセット実験には位置も中央に戻す必要がある

3. εは二極化に影響しない

ε=0.05〜0.50で全て完全二極化(30/30)
探索率を上げても、V値の自己強化ループは壊れない

解釈

身体化された個性(Embodied Individuality)

リセット実験の結果は偶然の発見だが重要:

記憶(V値) = 「何を学んだか」
位置(x,y) = 「どこにいるか」= 身体の状態
記憶を消しても身体が「個性の種」を保持する
これは「環境と身体の結合が個性を生む」という拡張認知(031)の具体例

臨界期の短さ

10歩 = 10000ステップ中の0.1%。人間の発達でいえば、80年の人生の最初の1ヶ月程度の経験が性格を決めるようなもの。TD学習の自己強化性が極端に強い。

実機ローバーへの含意: 電源投入後の最初の数秒間の感覚入力が、その後の行動パターンを支配する可能性。

次にやること

位置もリセットする実験（中央に戻す + V=0 → 再ランダム化されるはず）
臨界期の精密測定: N=1,2,3,5,7,10 で分岐点を特定
pygame可視化: V値ヒートマップ + 軌跡 + TD errorのリアルタイム表示

開いた問い

位置リセット+記憶リセットで再ランダム化されるなら、「個性」は記憶と身体のどちらにあるのか？ → 答え: 両方の相互作用。記憶が位置を誘導し、位置が記憶を強化する
実機ローバーで「位置リセット」に相当するのは何か？ → 物理的に持ち上げて中央に置く？
臨界期を延ばす方法はあるか？ → γを下げる（近視眼的にする）、αを下げる（学習を遅くする）