忘却と可塑性 — V値の減衰設計
033の問い2-3から
減衰項を入れたら個性はどう変わる? ねおのの「壊して再構築」は高忘却率+高α_baseか?
TD学習に忘却を入れる
標準のTD更新:
V(s) ← V(s) + α × δ
忘却付き(全セルに毎ステップ適用):
V(s) ← V(s) × (1 - λ) + α × δ # 訪問したセル
V(s) ← V(s) × (1 - λ) # 訪問していないセル
λ = 忘却率。λ=0で従来通り(忘れない)、λ=1で毎ステップ全リセット。
λが個性に与える影響の仮説
λ ≈ 0(忘れない)
- V値マップは経験の全履歴の累積
- 初期経験の痕跡が残り続ける → 強い経路依存性
- 個性は「化石化」する: 一度形成されたら変わりにくい
- 環境が変わっても古い癖が残る(適応が遅い)
- 比喩: 老人。経験豊富だが頑固
λ ≈ 0.001(ゆっくり忘れる)
- 最近の経験に重みが移る
- 長く訪れない場所のV値がゼロに回帰 → 「知らない場所」が再び増える
- 個性は漂流する: ゆっくり変わり続ける
- 比喩: 中年。経験に基づくが柔軟性も残る
λ ≈ 0.01(頻繁に忘れる)
- V値マップが「短期記憶」化する
- 今いる場所の近傍だけが学習済み、遠い場所は常にゼロ
- 個性が不安定 — 環境の変化に即応するが、アイデンティティの連続性が薄い
- 比喩: ねおのの「常に壊して再構築」
λ → 1(即座に忘れる)
- V値が意味を持たない → 実質ランダムウォーク
- 個性なし。毎瞬が新しい
α と λ の交互作用: 2×2マトリクス
| 低λ(忘れない) | 高λ(忘れやすい) | |
|---|---|---|
| 高α(学びが速い) | 初期経験が刻まれ、強固に固定。衝動的かつ頑固 | 環境変化に素早く適応。流動的。ねおの型 |
| 低α(学びが遅い) | ゆっくり深く学び、変わらない。職人型 | 何も定着しない。ノイズに振り回される |
右上(高α+高λ)が「壊して再構築」タイプ。 左下(低α+低λ)が「職人」タイプ。 この対角線上のどこにいるかが、個性の時間的テクスチャを決める。
Phase Aへの実装判断
まず λ=0(忘却なし)で実装し、後からλを追加パラメータとして入れる。
理由:
- 029のvalenceスイープだけで十分なパラメータ空間がある
- λの効果はvalenceが確立してからの方が比較しやすい
- ほこ天デモは短時間(数分)→ 忘却が効く時間スケールに達しない可能性
ただし長時間走行デモをやるなら忘却は必須。1時間走らせたら初期経験の痕跡だけで動くのは不自然。
忘却と臨界期の関係
029の「個性の臨界期」に忘却が絡む:
- λ=0: 臨界期の効果が永続する(初期N歩の傷跡が消えない)
- λ>0: 臨界期の効果が時定数 1/λ で減衰する
- つまり臨界期は λ で制御できる
これは発達心理学の知見と整合する:
- 乳幼児期(高α, 低λ): 学習が速く、経験が深く刻まれる
- 思春期(高α, 中λ): 学習は速いが、以前の学習を上書きもする(アイデンティティの揺らぎ)
- 成人期(低α, 低λ): 学習は遅いが安定。変化しにくい
α と λ を時間変動させれば「発達段階」をシミュレートできる。
これはPhase Aの範囲外だが、将来的には面白い。起動直後はα高+λ低(臨界期)、時間経過とともにα低+λ微増(成熟)。ほこ天で「この子は今、子供時代です」と言えたら強い。
開いた問い
- 選択的忘却: 全セル一律にλで減衰させるのは粗い。訪問頻度が高いセルは減衰しにくい(記憶の強化)、訪問しないセルだけ忘れる、というモデルの方が生物学的に自然。ただし実装は複雑になる
- 忘却と「個性の死」: λが十分大きいと個性が消える。個性が消える閾値λは何で決まる? おそらく環境の時間スケール(報酬が変化する速さ)との比。λ ≈ 環境変化率 のとき「ちょうど追従できる」
- ねおのは本当に高λか?: 「壊して再構築」は全体のリセットではなく構造の再編成かもしれない。V値を全部ゼロにするのではなく、V値の解釈フレームワーク(どの次元を重視するか)を変える。これは忘却ではなく注意の再配分。メタ学習に近い