発達段階の逆転は起きなかった — 記憶は最初から最強
実験
対称環境、reset_step = 50, 100, 200, 500, 1000, 2000, 5000 で記憶vs身体の交差実験。各N=60。
結果
| reset_step | 記憶復元% | 身体復元% | 差 |
|---|---|---|---|
| 50 | 87.8 | 70.7 | +17.1 |
| 100 | 97.4 | 73.7 | +23.7 |
| 200 | 94.7 | 76.3 | +18.4 |
| 500 | 94.6 | 64.9 | +29.7 |
| 1000 | 94.6 | 78.4 | +16.2 |
| 2000 | 97.3 | 75.7 | +21.6 |
| 5000 | 96.7 | 88.3 | +8.3 |
逆転なし。全段階で記憶 > 身体。
解釈
なぜ記憶はこんなに早く効くか
TD学習のV値勾配は、たった50歩でもすでに有意な方向情報を持つ。エージェントが偶然A側に行って+0.5を数回受けると、A側のV値が上がる。この「わずかな勾配」でもε-greedy(ε=0.1)のgreedyパートが正しい方向を選ぶ。
V値の勾配は微弱でも方向を示す。位置は強いが方向を示さない。
身体の非単調性
身体復元率がstep=500で最小(65%)なのは興味深い。仮説:
- step=500は「片方のRoomに偏り始めたが、まだ端まで行ってない」段階
- 位置が中途半端だと、V=0の状態で偶然に左右される余地が大きい
- step=5000は端まで行ってるので、そこから始まる利点が最大
差が最小なのはstep=5000(+8.3%)
身体の復元率が88%まで上がるのは、5000歩で十分に端に定着しているから。逆に言えば、長時間学習するほど記憶と身体の差は縮まる。もっと長く(step=50000)やれば身体が追いつくかもしれない。
045の修正は不要
045の「記憶 > 身体」の序列は、発達段階に関わらず成立する。ただし:
- 超早期(step=50): 差17%。記憶もまだ弱いが身体より強い
- 成熟期(step=5000): 差8%。身体が追い上げる
構造的な理解
記憶(V値)は情報的: 「どちらが良いか」の方向を持つ。量が少なくても方向があれば行動を誘導する。 身体(位置)は状況的: 「ここにいる」という事実。方向情報を持たないので、V=0だとε-greedyの偶然に任される。
情報 > 状況。これは人間にも通じる。記憶喪失しても「良い環境にいる」ことは助けになるが、「自分が誰で何を好むかの記憶」があれば砂漠に放り出されても自分を取り戻せる。
次にやること
- step=50000, 100000での身体復元率: 極端に成熟したエージェントでは身体が追いつくか?
- V値ノイズ実験: V値に一様ノイズを加えて記憶を劣化させたとき、どこで身体に逆転されるか? → 「記憶の劣化閾値」
- ε依存性: ε=0.01(ほぼgreedy)だとV値勾配の影響がさらに強まるはず。ε=0.3だと?