選択的decay実験 — 身体性が記憶より強い

結果

実験1: 選択的decay vs 一様decay(バリア消失時の再編成)

decay uniform再編成% selective再編成%
0.999 0% 0%
0.995 3.3% 0%
0.990 3.3% 0%
0.950 16.7% 0%

予測の逆: 選択的decay(未訪問セルだけ忘れる)は再編成を増やすのではなく、完全に抑制した

理由

043の洞察が正しかった: 「decayが効くのは訪れていない場所のV値」。

  • 選択的decayは、まさにこの「効く場所」だけにdecayをかける
  • しかし、未訪問セルのV値が消えても、エージェントはそもそもそこに行かない
  • 今いるRoomのV値は学習で常に補充される → 自己強化ループは壊れない
  • 忘却は「使わない記憶を忘れる」だけでは変化を生まない

一様decayが再編成を起こすのは、今いる場所のV値も削るから。現在地の「良さ」が薄れて、ε-greedyの偶然が効きやすくなる。

実験2: ウィンドウ付き選択的decay

一様decayより低い再編成率(λ=0.05で6.7% vs 16.7%)。窓付きは選択的と一様の中間。

実験3: 突然死(V全リセット)→ 83.3%が同じ側に再定着

これが最も重要な発見。

結果 N=30
同じ側に戻った 25 (83.3%)
反対側に行った 5 (16.7%)

V=0にしても個性が復元する。なぜか:

  1. リセット時、エージェントはRoom AかBのどちらかに物理的にいる
  2. V=0なので次の行動はランダム(ε相当)
  3. しかしRoom内のどこかにいるので、数ステップ以内にそのRoomの報酬を受ける
  4. 同じRoomのV値が先に積まれる → 自己強化ループが再起動
  5. 身体の位置が記憶の種になる

解釈: 身体性 > 記憶

この結果は、個性の源泉が3層構造であることを示す:

  1. 記憶(V値): 最も表層的。消去可能。しかし消えても再生する
  2. 身体(位置): 中間層。記憶を失っても、「どこにいるか」が再学習の起点を決める
  3. 環境(報酬構造): 最深層。環境が対称でも、身体位置が非対称を注入する

「個性はどこに宿るか」への暫定回答:

  • 記憶ではない(消しても戻る)
  • 身体の位置にある(83%の復元率)
  • 完全にランダム化するには、記憶リセットかつ位置リセット(中央に戻す)が必要

ローバーへの含意

実機のローバーが「突然電池切れ → 再起動」した場合:

  • V値(学習済みの価値マップ)がRAMにあれば消える
  • しかしローバーは電池切れの場所にいる。再起動後、その場所から再学習
  • つまり同じ個性が復活する確率が高い
  • 永続メモリ(SDカード保存)がなくても、身体性が個性を保存する

これは「電源入れ直したら性格変わった」が起きにくいことを意味する。デモ的に安心材料。

追加検証すべきこと

  1. 位置リセット: V=0 + 位置を中央に戻す → 今度こそランダム再分配されるはず
  2. 位置リセット + V保持: 位置だけ中央に戻してV値はそのまま → 記憶が身体の位置を override するか
  3. ε=1.0でのリセット: 完全ランダム行動を数ステップ入れてから通常に戻す → 「混乱期」の再起動

043からの接続

043: 「忘却だけでは個性は簡単に壊れない」 044: 「記憶を全部消しても壊れない。身体がある限り」

忘却の不十分さの理由が明確になった。decayが個性を壊すには:

  • 一様decayで現在地のV値も削る必要がある(選択的では不十分)
  • それでもλ=0.05で83%維持(043)
  • 完全リセットしても83%復元(044)
  • 個性は記憶より深い層にある