選択的decay実験 — 身体性が記憶より強い
結果
実験1: 選択的decay vs 一様decay(バリア消失時の再編成)
| decay | uniform再編成% | selective再編成% |
|---|---|---|
| 0.999 | 0% | 0% |
| 0.995 | 3.3% | 0% |
| 0.990 | 3.3% | 0% |
| 0.950 | 16.7% | 0% |
予測の逆: 選択的decay(未訪問セルだけ忘れる)は再編成を増やすのではなく、完全に抑制した。
理由
043の洞察が正しかった: 「decayが効くのは訪れていない場所のV値」。
- 選択的decayは、まさにこの「効く場所」だけにdecayをかける
- しかし、未訪問セルのV値が消えても、エージェントはそもそもそこに行かない
- 今いるRoomのV値は学習で常に補充される → 自己強化ループは壊れない
- 忘却は「使わない記憶を忘れる」だけでは変化を生まない
一様decayが再編成を起こすのは、今いる場所のV値も削るから。現在地の「良さ」が薄れて、ε-greedyの偶然が効きやすくなる。
実験2: ウィンドウ付き選択的decay
一様decayより低い再編成率(λ=0.05で6.7% vs 16.7%)。窓付きは選択的と一様の中間。
実験3: 突然死(V全リセット)→ 83.3%が同じ側に再定着
これが最も重要な発見。
| 結果 | N=30 |
|---|---|
| 同じ側に戻った | 25 (83.3%) |
| 反対側に行った | 5 (16.7%) |
V=0にしても個性が復元する。なぜか:
- リセット時、エージェントはRoom AかBのどちらかに物理的にいる
- V=0なので次の行動はランダム(ε相当)
- しかしRoom内のどこかにいるので、数ステップ以内にそのRoomの報酬を受ける
- 同じRoomのV値が先に積まれる → 自己強化ループが再起動
- 身体の位置が記憶の種になる
解釈: 身体性 > 記憶
この結果は、個性の源泉が3層構造であることを示す:
- 記憶(V値): 最も表層的。消去可能。しかし消えても再生する
- 身体(位置): 中間層。記憶を失っても、「どこにいるか」が再学習の起点を決める
- 環境(報酬構造): 最深層。環境が対称でも、身体位置が非対称を注入する
「個性はどこに宿るか」への暫定回答:
- 記憶ではない(消しても戻る)
- 身体の位置にある(83%の復元率)
- 完全にランダム化するには、記憶リセットかつ位置リセット(中央に戻す)が必要
ローバーへの含意
実機のローバーが「突然電池切れ → 再起動」した場合:
- V値(学習済みの価値マップ)がRAMにあれば消える
- しかしローバーは電池切れの場所にいる。再起動後、その場所から再学習
- つまり同じ個性が復活する確率が高い
- 永続メモリ(SDカード保存)がなくても、身体性が個性を保存する
これは「電源入れ直したら性格変わった」が起きにくいことを意味する。デモ的に安心材料。
追加検証すべきこと
- 位置リセット: V=0 + 位置を中央に戻す → 今度こそランダム再分配されるはず
- 位置リセット + V保持: 位置だけ中央に戻してV値はそのまま → 記憶が身体の位置を override するか
- ε=1.0でのリセット: 完全ランダム行動を数ステップ入れてから通常に戻す → 「混乱期」の再起動
043からの接続
043: 「忘却だけでは個性は簡単に壊れない」 044: 「記憶を全部消しても壊れない。身体がある限り」
忘却の不十分さの理由が明確になった。decayが個性を壊すには:
- 一様decayで現在地のV値も削る必要がある(選択的では不十分)
- それでもλ=0.05で83%維持(043)
- 完全リセットしても83%復元(044)
- 個性は記憶より深い層にある