発達段階の逆転は起きなかった — 記憶は最初から最強

実験

対称環境、reset_step = 50, 100, 200, 500, 1000, 2000, 5000 で記憶vs身体の交差実験。各N=60。

結果

reset_step 記憶復元% 身体復元%
50 87.8 70.7 +17.1
100 97.4 73.7 +23.7
200 94.7 76.3 +18.4
500 94.6 64.9 +29.7
1000 94.6 78.4 +16.2
2000 97.3 75.7 +21.6
5000 96.7 88.3 +8.3

逆転なし。全段階で記憶 > 身体。

解釈

なぜ記憶はこんなに早く効くか

TD学習のV値勾配は、たった50歩でもすでに有意な方向情報を持つ。エージェントが偶然A側に行って+0.5を数回受けると、A側のV値が上がる。この「わずかな勾配」でもε-greedy(ε=0.1)のgreedyパートが正しい方向を選ぶ。

V値の勾配は微弱でも方向を示す。位置は強いが方向を示さない

身体の非単調性

身体復元率がstep=500で最小(65%)なのは興味深い。仮説:

  • step=500は「片方のRoomに偏り始めたが、まだ端まで行ってない」段階
  • 位置が中途半端だと、V=0の状態で偶然に左右される余地が大きい
  • step=5000は端まで行ってるので、そこから始まる利点が最大

差が最小なのはstep=5000(+8.3%)

身体の復元率が88%まで上がるのは、5000歩で十分に端に定着しているから。逆に言えば、長時間学習するほど記憶と身体の差は縮まる。もっと長く(step=50000)やれば身体が追いつくかもしれない。

045の修正は不要

045の「記憶 > 身体」の序列は、発達段階に関わらず成立する。ただし:

  • 超早期(step=50): 差17%。記憶もまだ弱いが身体より強い
  • 成熟期(step=5000): 差8%。身体が追い上げる

構造的な理解

記憶(V値)は情報的: 「どちらが良いか」の方向を持つ。量が少なくても方向があれば行動を誘導する。 身体(位置)は状況的: 「ここにいる」という事実。方向情報を持たないので、V=0だとε-greedyの偶然に任される。

情報 > 状況。これは人間にも通じる。記憶喪失しても「良い環境にいる」ことは助けになるが、「自分が誰で何を好むかの記憶」があれば砂漠に放り出されても自分を取り戻せる。

次にやること

  1. step=50000, 100000での身体復元率: 極端に成熟したエージェントでは身体が追いつくか?
  2. V値ノイズ実験: V値に一様ノイズを加えて記憶を劣化させたとき、どこで身体に逆転されるか? → 「記憶の劣化閾値」
  3. ε依存性: ε=0.01(ほぼgreedy)だとV値勾配の影響がさらに強まるはず。ε=0.3だと?