記憶 vs 身体性 — 交差実験で044を覆す

実験設計

対称環境(両Room +0.5)。5000ステップ学習後、4条件でリセットして再学習(+10000歩)。N=60。

条件 V値 位置 結果
A: 完全リセット 0 中央 48.3%復元 (≈ランダム)
B: 記憶保持 保持 中央 96.7%復元
C: 位置保持 0 そのまま 88.3%復元
D: 完全+混乱期 0 中央+ε=1.0×100歩 46.7%復元 (≈ランダム)

044の修正

044は「V=0 + 位置そのまま → 83.3%復元 → 身体性が個性の源泉」と結論した。

しかし記憶を保持して位置だけ中央に戻しても96.7%復元する。記憶のほうが強い。

正しい序列: 記憶(97%) > 身体(88%) >> なし(48%)

解釈

記憶はなぜ強いか

V値マップは5000ステップ分の学習結果を保持している。中央に放り出されても、隣接セルのV値勾配がすぐに「こっちが良い方」を教える。数ステップで元の側に引き戻される。

身体はなぜそこそこ強いか

V=0でも、Room Aにいればすぐ+0.5報酬を受けてA側のV値が先に立ち上がる。044と同じメカニズム。ただし97%には届かない。ε-greedyの偶然でたまに逆側に流される(11.7%)。

完全リセットはなぜ50/50か

V=0 + 位置中央 = 完全に対称な初期状態。最初の1歩がランダムに決まる。→ 036の自発的対称性の破れと同じ状況。

混乱期リセットもランダム

ε=1.0×100歩は、中央から100歩ランダムウォーク。位置のアドバンテージがかき消される。完全リセットと同等。

構造

個性の保存力は3層で、記憶が最上位:

記憶(V値) ──── 97% ──── 最強。勾配が行動を即座に誘導
   ↓
身体(位置) ──── 88% ──── 次点。報酬の即時フィードバックがV値を再構築
   ↓
環境(報酬) ──── 50% ──── 対称環境では中立。非対称なら一方的に決定

044の「個性は記憶より深い層にある」は不完全だった。正確には:

  • 記憶が最も強い保存機構
  • 身体は記憶が失われたときのバックアップ
  • 両方失われると個性は消える

ローバーへの含意

  • RAM上のV値が生きている限り、物理的にどこに動かされても個性は戻る(97%)
  • 電池切れでRAMが飛んでも、同じ場所にいれば88%で復活
  • 完全に初期化(電源OFF+別の場所に移動)すると、新しい個性がランダムに形成される
  • 永続メモリ(SDカード保存)は個性保存にとって最も重要

044→045の教訓

044は「V=0+位置保持」の1条件だけで「身体性 > 記憶」と結論した。対照実験がなかった。 交差実験で「V保持+位置リセット」を追加して初めて序列が見えた。 思い込みを交差実験で壊す。シミュレータの意義そのもの。

開いた問い

  1. 記憶の「最小有効量」: V値に一様ノイズを加えていくと、何%のノイズで記憶の優位が消えるか? → 「記憶の劣化耐性」
  2. 身体の効果はεに依存するか? ε=0.01(ほぼgreedy)ならV値勾配が弱くても身体位置が効く?
  3. 5000歩でなく500歩(若いエージェント)での交差実験: 記憶がまだ浅いときは身体が勝つか? → 発達段階での逆転があり得る