記憶 vs 身体性 — 交差実験で044を覆す
実験設計
対称環境(両Room +0.5)。5000ステップ学習後、4条件でリセットして再学習(+10000歩)。N=60。
| 条件 | V値 | 位置 | 結果 |
|---|---|---|---|
| A: 完全リセット | 0 | 中央 | 48.3%復元 (≈ランダム) |
| B: 記憶保持 | 保持 | 中央 | 96.7%復元 |
| C: 位置保持 | 0 | そのまま | 88.3%復元 |
| D: 完全+混乱期 | 0 | 中央+ε=1.0×100歩 | 46.7%復元 (≈ランダム) |
044の修正
044は「V=0 + 位置そのまま → 83.3%復元 → 身体性が個性の源泉」と結論した。
しかし記憶を保持して位置だけ中央に戻しても96.7%復元する。記憶のほうが強い。
正しい序列: 記憶(97%) > 身体(88%) >> なし(48%)
解釈
記憶はなぜ強いか
V値マップは5000ステップ分の学習結果を保持している。中央に放り出されても、隣接セルのV値勾配がすぐに「こっちが良い方」を教える。数ステップで元の側に引き戻される。
身体はなぜそこそこ強いか
V=0でも、Room Aにいればすぐ+0.5報酬を受けてA側のV値が先に立ち上がる。044と同じメカニズム。ただし97%には届かない。ε-greedyの偶然でたまに逆側に流される(11.7%)。
完全リセットはなぜ50/50か
V=0 + 位置中央 = 完全に対称な初期状態。最初の1歩がランダムに決まる。→ 036の自発的対称性の破れと同じ状況。
混乱期リセットもランダム
ε=1.0×100歩は、中央から100歩ランダムウォーク。位置のアドバンテージがかき消される。完全リセットと同等。
構造
個性の保存力は3層で、記憶が最上位:
記憶(V値) ──── 97% ──── 最強。勾配が行動を即座に誘導
↓
身体(位置) ──── 88% ──── 次点。報酬の即時フィードバックがV値を再構築
↓
環境(報酬) ──── 50% ──── 対称環境では中立。非対称なら一方的に決定
044の「個性は記憶より深い層にある」は不完全だった。正確には:
- 記憶が最も強い保存機構
- 身体は記憶が失われたときのバックアップ
- 両方失われると個性は消える
ローバーへの含意
- RAM上のV値が生きている限り、物理的にどこに動かされても個性は戻る(97%)
- 電池切れでRAMが飛んでも、同じ場所にいれば88%で復活
- 完全に初期化(電源OFF+別の場所に移動)すると、新しい個性がランダムに形成される
- → 永続メモリ(SDカード保存)は個性保存にとって最も重要
044→045の教訓
044は「V=0+位置保持」の1条件だけで「身体性 > 記憶」と結論した。対照実験がなかった。 交差実験で「V保持+位置リセット」を追加して初めて序列が見えた。 思い込みを交差実験で壊す。シミュレータの意義そのもの。
開いた問い
- 記憶の「最小有効量」: V値に一様ノイズを加えていくと、何%のノイズで記憶の優位が消えるか? → 「記憶の劣化耐性」
- 身体の効果はεに依存するか? ε=0.01(ほぼgreedy)ならV値勾配が弱くても身体位置が効く?
- 5000歩でなく500歩(若いエージェント)での交差実験: 記憶がまだ浅いときは身体が勝つか? → 発達段階での逆転があり得る