TD学習とvalenceスイープ実験設計
Ch11の続き — ブッシュ・モステラーからTD学習へ
ベルマン方程式: 「今の価値 = 今の報酬 + 未来の価値」
ブッシュ・モステラーは「期待とのズレ」で学習した。でも時間軸がなかった。
- ブッシュ・モステラー: 合図→報酬のペアだけ。間に何があるかは問わない
- 現実: 合図から報酬まで何ステップもある。その途中の「場所」や「状態」にも価値がある
ベルマン方程式(RAND研究所、1950年代の動的計画法から):
V(s) = R(s) + γ × V(s')
- V(s): 状態sの価値
- R(s): 今もらえる報酬
- γ: 割引率(未来の報酬をどれだけ重視するか、0〜1)
- V(s'): 次の状態の価値
再帰構造: 未来の価値を計算するには、さらにその先の価値が必要。入れ子の入れ子。
TD学習: 「毎ステップ、期待とのズレで更新する」
Sutton (1988)。ブッシュ・モステラーの「prediction error」を、時間軸に沿って毎ステップ適用する:
δ = R(s) + γ × V(s') - V(s)
V(s) ← V(s) + α × δ
- δ: TD error(temporal difference error)= 「思ってたより良かった/悪かった」
- α: 学習率
核心: 報酬が来なくても、次の状態の見積もりが変わるだけで学習が起きる。予測の予測で更新する。
ドーパミンとTD error(Schultz, Dayan & Montague 1997)
Schultz et al. (1997) "A neural substrate of prediction and reward" — Science
ドーパミンニューロンの発火パターンが、TD errorと正確に対応する:
| 状況 | ドーパミン | TD error |
|---|---|---|
| 予測してない報酬が来た | 発火増加 | δ > 0 (正のPE) |
| 予測通り報酬が来た | 反応なし | δ = 0 |
| 予測してた報酬が来ない | 発火減少 | δ < 0 (負のPE) |
さらに重要: 学習が進むと、報酬そのものではなく報酬を予測する合図でドーパミンが出る。報酬のタイミングでは出なくなる。TD学習の予測がまさにこう振る舞う。
valence ↔ TD学習の接続
016で設計したvalence = signed prediction errorの倍率。TD学習で再定式化すると:
δ = R(s) + γ × V(s') - V(s)
if δ > 0:
V(s) ← V(s) + α+ × δ # 正のsurpriseへの感度
elif δ < 0:
V(s) ← V(s) + α- × δ # 負のsurpriseへの感度
valenceパラメータ = α+ / α- の比率
valenceスイープ実験設計
パラメータ空間
独立変数:
-
valence_ratio= α+ / α-(個性の方向)- 1.0: 対称(偏りなし)
- 2.0: 楽観的(正のPEに2倍敏感)
- 0.5: 悲観的(負のPEに2倍敏感)
- 範囲: 0.1 〜 10.0(log scale で5-7点)
-
alpha_base= (α+ + α-) / 2(固着速度)- 高い: 経験がすぐ価値観に反映される(衝動的)
- 低い: ゆっくり変わる(慎重/保守的)
- 範囲: 0.01 〜 0.5(3-4点)
-
gamma(割引率、時間的視野)- 高い: 遠い未来まで考慮
- 低い: 目先の報酬を重視
- とりあえず固定: 0.9
環境設計
027のstate-behaviour feedback仮説を検証するための環境:
最小環境: 2部屋 + 1通路
- Room A: 正の報酬(light source, warmth)
- Room B: 負の報酬(obstacle, cold)
- 通路: 中立
測定する行動:
- 滞在時間分布: 各部屋にどれだけいるか
- 遷移頻度: 部屋間の移動回数
- 収束時間: 行動パターンが安定するまでのステップ数
- 可逆性: 途中で報酬を入れ替えたとき、どれだけ早く適応するか
027の問いへの実験的アプローチ
state-behaviour feedbackのattractorは二極だけか、中間にも安定点があるか?
実験: valence_ratio=1.0(対称)で走らせたとき:
- 仮説A: 環境によって社交的/回避的のどちらかに収束(二極)
- 仮説B: Room AとBを均等に行き来する安定パターンが存在(中間安定点)
- 仮説C: 初期経験のランダムな偏りで二極のどちらかに落ちる(対称性の自発的破れ)
仮説Cが最も興味深い。valence_ratioが完全に対称でも、経験の偶然の非対称性が個性を生むなら、それは「選択の癖」の最小モデルになる。
実装ノート(Phase Aシミュレータ向け)
- pygameの2D環境で十分
- ローバーはグリッドワールド上の点
- 各セルに報酬値を割り当て
- SpatialMemoryの各セルにV(s)を保持
- 毎ステップTD更新
- α+/α-の非対称を入れる
開いた問い
- γ(割引率)にも個体差を入れるべきか? → 「時間的視野の個人差」として面白いが、パラメータ空間が爆発する。まずvalenceに絞る
- 複数の報酬源(正×2、負×1など)にしたとき、「好み」が分化するか?
- α+/α-の非対称性は生得的(固定)にするか、経験で変動させるか? → 生得的にした方が「遺伝×環境」の分離実験ができる