発達段階の逆転は起きなかった — 記憶は最初から最強

実験

対称環境、reset_step = 50, 100, 200, 500, 1000, 2000, 5000 で記憶vs身体の交差実験。各N=60。

reset_step	記憶復元%	身体復元%	差
50	87.8	70.7	+17.1
100	97.4	73.7	+23.7
200	94.7	76.3	+18.4
500	94.6	64.9	+29.7
1000	94.6	78.4	+16.2
2000	97.3	75.7	+21.6
5000	96.7	88.3	+8.3

逆転なし。全段階で記憶 > 身体。

TD学習のV値勾配は、たった50歩でもすでに有意な方向情報を持つ。エージェントが偶然A側に行って+0.5を数回受けると、A側のV値が上がる。この「わずかな勾配」でもε-greedy(ε=0.1)のgreedyパートが正しい方向を選ぶ。

V値の勾配は微弱でも方向を示す。位置は強いが方向を示さない。

身体復元率がstep=500で最小(65%)なのは興味深い。仮説:

身体の復元率が88%まで上がるのは、5000歩で十分に端に定着しているから。逆に言えば、長時間学習するほど記憶と身体の差は縮まる。もっと長く(step=50000)やれば身体が追いつくかもしれない。

045の「記憶 > 身体」の序列は、発達段階に関わらず成立する。ただし:

記憶(V値)は情報的: 「どちらが良いか」の方向を持つ。量が少なくても方向があれば行動を誘導する。 身体(位置)は状況的: 「ここにいる」という事実。方向情報を持たないので、V=0だとε-greedyの偶然に任される。

情報 > 状況。これは人間にも通じる。記憶喪失しても「良い環境にいる」ことは助けになるが、「自分が誰で何を好むかの記憶」があれば砂漠に放り出されても自分を取り戻せる。