忘却と可塑性 — V値の減衰設計

033の問い2-3から

減衰項を入れたら個性はどう変わる? ねおのの「壊して再構築」は高忘却率+高α_baseか?

TD学習に忘却を入れる

標準のTD更新:

V(s) ← V(s) + α × δ

忘却付き(全セルに毎ステップ適用):

V(s) ← V(s) × (1 - λ) + α × δ   # 訪問したセル
V(s) ← V(s) × (1 - λ)             # 訪問していないセル

λ = 忘却率。λ=0で従来通り(忘れない)、λ=1で毎ステップ全リセット。

λが個性に与える影響の仮説

λ ≈ 0(忘れない)

  • V値マップは経験の全履歴の累積
  • 初期経験の痕跡が残り続ける → 強い経路依存性
  • 個性は「化石化」する: 一度形成されたら変わりにくい
  • 環境が変わっても古い癖が残る(適応が遅い)
  • 比喩: 老人。経験豊富だが頑固

λ ≈ 0.001(ゆっくり忘れる)

  • 最近の経験に重みが移る
  • 長く訪れない場所のV値がゼロに回帰 → 「知らない場所」が再び増える
  • 個性は漂流する: ゆっくり変わり続ける
  • 比喩: 中年。経験に基づくが柔軟性も残る

λ ≈ 0.01(頻繁に忘れる)

  • V値マップが「短期記憶」化する
  • 今いる場所の近傍だけが学習済み、遠い場所は常にゼロ
  • 個性が不安定 — 環境の変化に即応するが、アイデンティティの連続性が薄い
  • 比喩: ねおのの「常に壊して再構築」

λ → 1(即座に忘れる)

  • V値が意味を持たない → 実質ランダムウォーク
  • 個性なし。毎瞬が新しい

α と λ の交互作用: 2×2マトリクス

低λ(忘れない) 高λ(忘れやすい)
高α(学びが速い) 初期経験が刻まれ、強固に固定。衝動的かつ頑固 環境変化に素早く適応。流動的。ねおの型
低α(学びが遅い) ゆっくり深く学び、変わらない。職人型 何も定着しない。ノイズに振り回される

右上(高α+高λ)が「壊して再構築」タイプ。 左下(低α+低λ)が「職人」タイプ。 この対角線上のどこにいるかが、個性の時間的テクスチャを決める。

Phase Aへの実装判断

まず λ=0(忘却なし)で実装し、後からλを追加パラメータとして入れる。

理由:

  1. 029のvalenceスイープだけで十分なパラメータ空間がある
  2. λの効果はvalenceが確立してからの方が比較しやすい
  3. ほこ天デモは短時間(数分)→ 忘却が効く時間スケールに達しない可能性

ただし長時間走行デモをやるなら忘却は必須。1時間走らせたら初期経験の痕跡だけで動くのは不自然。

忘却と臨界期の関係

029の「個性の臨界期」に忘却が絡む:

  • λ=0: 臨界期の効果が永続する(初期N歩の傷跡が消えない)
  • λ>0: 臨界期の効果が時定数 1/λ で減衰する
  • つまり臨界期は λ で制御できる

これは発達心理学の知見と整合する:

  • 乳幼児期(高α, 低λ): 学習が速く、経験が深く刻まれる
  • 思春期(高α, 中λ): 学習は速いが、以前の学習を上書きもする(アイデンティティの揺らぎ)
  • 成人期(低α, 低λ): 学習は遅いが安定。変化しにくい

α と λ を時間変動させれば「発達段階」をシミュレートできる。

これはPhase Aの範囲外だが、将来的には面白い。起動直後はα高+λ低(臨界期)、時間経過とともにα低+λ微増(成熟)。ほこ天で「この子は今、子供時代です」と言えたら強い。

開いた問い

  1. 選択的忘却: 全セル一律にλで減衰させるのは粗い。訪問頻度が高いセルは減衰しにくい(記憶の強化)、訪問しないセルだけ忘れる、というモデルの方が生物学的に自然。ただし実装は複雑になる
  2. 忘却と「個性の死」: λが十分大きいと個性が消える。個性が消える閾値λは何で決まる? おそらく環境の時間スケール(報酬が変化する速さ)との比。λ ≈ 環境変化率 のとき「ちょうど追従できる」
  3. ねおのは本当に高λか?: 「壊して再構築」は全体のリセットではなく構造の再編成かもしれない。V値を全部ゼロにするのではなく、V値の解釈フレームワーク(どの次元を重視するか)を変える。これは忘却ではなく注意の再配分。メタ学習に近い