動的バリア実験 — 個性の不可逆性と可塑性の非対称
問い
学習途中でバリアの高さを変えたら、確立された個性は再編成されるか? 034「忘却と可塑性」への実験的接続。
結果
実験A: バリア消失(cr=0.0→0.3、step 5000で切替)
- 40/40が同じ側に留まった。バリアを弱めても個性は変わらない
- しかもcr=0.3は041で「二極化が消失する」レベルのバリア高さ
- つまり初めからcr=0.3だったら二極化しなかったのに、一度できた個性はcr=0.3でも壊れない
実験B: バリア出現(cr=0.3→0.0、step 5000で切替)
- 興味深い結果: phase1でほぼ全員B寄り。cr=0.3はバリアとして弱いが完全には消えず、微妙な非対称性が生じている
- phase2でバリアが出現しても既にB側に定着しているので変化なし
- 仮説Bの検証は不十分: phase1が「混在」にならなかった
実験C: εの影響
- ε=0.1: 100%維持。ε=0.3: 95%維持
- 探索率を3倍にしてもほぼ壊れない。5%だけが再編成される
- 探索は個性破壊の弱い力でしかない
実験D: 完全バリア消失(cr=0.0→0.5、通路が部屋と同じ報酬に)
- 40/40維持。バリアを完全に消しても動かない
解釈: ヒステリシス(履歴効果)
これは物理学でいうヒステリシス。
- 個性形成は不可逆的: 一度V値マップが偏ると、環境条件を「個性が生まれなかったはずの条件」に変えても戻らない
- V値自体がバリアになる: 物理的なバリア(通路の低報酬)がなくなっても、学習済みV値が「この方向に行くと良いことがある」と記憶しているので、反対側を探索しない
- 探索率3倍でも5%しか壊れない: V値の自己強化ループがε-greedyの探索圧を圧倒する
034への接続: 忘却と可塑性
034で「忘却がないと個性が固着する」と書いた。今回の結果はまさにそれ。
- V値の減衰(忘却)がゼロ → 個性は完全に不可逆
- もしV値にdecay(V *= 0.999/step)を入れたら、バリア消失時に再編成が起きるかもしれない
- 忘却 = 可塑性の源泉。忘れない存在は変われない
実機示唆
- ローバーの「性格リセット」にはV値の明示的クリアが必要。環境を変えるだけでは足りない
- 逆に、一度個性ができたら電源を入れ直さない限り安定する → デモ向きの性質
- 部分的忘却(V *= decay)を入れると「環境適応する個性」ができる。decayが大きすぎると個性が消え、小さすぎると固着する → decayが可塑性の制御パラメータ
開いた問い
- V値にdecayを入れた場合のバリア消失実験: decay率いくつで再編成が起きるか?
- 非対称decay: 正PEと負PEで忘却率を変える。「良い経験は忘れにくい」タイプと「悪い経験は忘れにくい」タイプ
- 実験Bの改良: phase1を確実に「混在」にするにはcr=0.5(完全バリアなし)にすべき。ただしその場合phase1でもう偏る(036で確認済み)
- → 実験Bの正しい問い: 「未学習状態でバリアを提示する」vs「学習済み状態でバリアを提示する」の違い → 初回と2回目で同じ環境を見ても反応が違う = 経験の蓄積 = 個性