TD学習とvalenceスイープ実験設計

Ch11の続き — ブッシュ・モステラーからTD学習へ

ベルマン方程式: 「今の価値 = 今の報酬 + 未来の価値」

ブッシュ・モステラーは「期待とのズレ」で学習した。でも時間軸がなかった

  • ブッシュ・モステラー: 合図→報酬のペアだけ。間に何があるかは問わない
  • 現実: 合図から報酬まで何ステップもある。その途中の「場所」や「状態」にも価値がある

ベルマン方程式(RAND研究所、1950年代の動的計画法から):

V(s) = R(s) + γ × V(s')
  • V(s): 状態sの価値
  • R(s): 今もらえる報酬
  • γ: 割引率(未来の報酬をどれだけ重視するか、0〜1)
  • V(s'): 次の状態の価値

再帰構造: 未来の価値を計算するには、さらにその先の価値が必要。入れ子の入れ子。

TD学習: 「毎ステップ、期待とのズレで更新する」

Sutton (1988)。ブッシュ・モステラーの「prediction error」を、時間軸に沿って毎ステップ適用する:

δ = R(s) + γ × V(s') - V(s)
V(s) ← V(s) + α × δ
  • δ: TD error(temporal difference error)= 「思ってたより良かった/悪かった」
  • α: 学習率

核心: 報酬が来なくても、次の状態の見積もりが変わるだけで学習が起きる。予測の予測で更新する。

ドーパミンとTD error(Schultz, Dayan & Montague 1997)

Schultz et al. (1997) "A neural substrate of prediction and reward" — Science

ドーパミンニューロンの発火パターンが、TD errorと正確に対応する:

状況 ドーパミン TD error
予測してない報酬が来た 発火増加 δ > 0 (正のPE)
予測通り報酬が来た 反応なし δ = 0
予測してた報酬が来ない 発火減少 δ < 0 (負のPE)

さらに重要: 学習が進むと、報酬そのものではなく報酬を予測する合図でドーパミンが出る。報酬のタイミングでは出なくなる。TD学習の予測がまさにこう振る舞う。

valence ↔ TD学習の接続

016で設計したvalence = signed prediction errorの倍率。TD学習で再定式化すると:

δ = R(s) + γ × V(s') - V(s)

if δ > 0:
    V(s) ← V(s) + α+ × δ    # 正のsurpriseへの感度
elif δ < 0:
    V(s) ← V(s) + α- × δ    # 負のsurpriseへの感度

valenceパラメータ = α+ / α- の比率

valenceスイープ実験設計

パラメータ空間

独立変数:

  • valence_ratio = α+ / α-(個性の方向)

    • 1.0: 対称(偏りなし)
    • 2.0: 楽観的(正のPEに2倍敏感)
    • 0.5: 悲観的(負のPEに2倍敏感)
    • 範囲: 0.1 〜 10.0(log scale で5-7点)
  • alpha_base = (α+ + α-) / 2(固着速度)

    • 高い: 経験がすぐ価値観に反映される(衝動的)
    • 低い: ゆっくり変わる(慎重/保守的)
    • 範囲: 0.01 〜 0.5(3-4点)
  • gamma(割引率、時間的視野)

    • 高い: 遠い未来まで考慮
    • 低い: 目先の報酬を重視
    • とりあえず固定: 0.9

環境設計

027のstate-behaviour feedback仮説を検証するための環境:

最小環境: 2部屋 + 1通路

  • Room A: 正の報酬(light source, warmth)
  • Room B: 負の報酬(obstacle, cold)
  • 通路: 中立

測定する行動:

  1. 滞在時間分布: 各部屋にどれだけいるか
  2. 遷移頻度: 部屋間の移動回数
  3. 収束時間: 行動パターンが安定するまでのステップ数
  4. 可逆性: 途中で報酬を入れ替えたとき、どれだけ早く適応するか

027の問いへの実験的アプローチ

state-behaviour feedbackのattractorは二極だけか、中間にも安定点があるか?

実験: valence_ratio=1.0(対称)で走らせたとき:

  • 仮説A: 環境によって社交的/回避的のどちらかに収束(二極)
  • 仮説B: Room AとBを均等に行き来する安定パターンが存在(中間安定点)
  • 仮説C: 初期経験のランダムな偏りで二極のどちらかに落ちる(対称性の自発的破れ)

仮説Cが最も興味深い。valence_ratioが完全に対称でも、経験の偶然の非対称性が個性を生むなら、それは「選択の癖」の最小モデルになる。

実装ノート(Phase Aシミュレータ向け)

  • pygameの2D環境で十分
  • ローバーはグリッドワールド上の点
  • 各セルに報酬値を割り当て
  • SpatialMemoryの各セルにV(s)を保持
  • 毎ステップTD更新
  • α+/α-の非対称を入れる

開いた問い

  1. γ(割引率)にも個体差を入れるべきか? → 「時間的視野の個人差」として面白いが、パラメータ空間が爆発する。まずvalenceに絞る
  2. 複数の報酬源(正×2、負×1など)にしたとき、「好み」が分化するか?
  3. α+/α-の非対称性は生得的(固定)にするか、経験で変動させるか? → 生得的にした方が「遺伝×環境」の分離実験ができる