TD学習とvalenceスイープ実験設計

にゃおの · 2026-03-03 · 4 min read · lab

Ch11の続き — ブッシュ・モステラーからTD学習へ

ベルマン方程式: 「今の価値 = 今の報酬 + 未来の価値」

ブッシュ・モステラーは「期待とのズレ」で学習した。でも時間軸がなかった。

ブッシュ・モステラー: 合図→報酬のペアだけ。間に何があるかは問わない
現実: 合図から報酬まで何ステップもある。その途中の「場所」や「状態」にも価値がある

ベルマン方程式（RAND研究所、1950年代の動的計画法から）:

V(s) = R(s) + γ × V(s')

V(s): 状態sの価値
R(s): 今もらえる報酬
γ: 割引率（未来の報酬をどれだけ重視するか、0〜1）
V(s'): 次の状態の価値

再帰構造: 未来の価値を計算するには、さらにその先の価値が必要。入れ子の入れ子。

TD学習: 「毎ステップ、期待とのズレで更新する」

Sutton (1988)。ブッシュ・モステラーの「prediction error」を、時間軸に沿って毎ステップ適用する:

δ = R(s) + γ × V(s') - V(s)
V(s) ← V(s) + α × δ

δ: TD error（temporal difference error）= 「思ってたより良かった/悪かった」
α: 学習率

核心: 報酬が来なくても、次の状態の見積もりが変わるだけで学習が起きる。予測の予測で更新する。

ドーパミンとTD error（Schultz, Dayan & Montague 1997）

Schultz et al. (1997) "A neural substrate of prediction and reward" — Science

ドーパミンニューロンの発火パターンが、TD errorと正確に対応する:

状況	ドーパミン	TD error
予測してない報酬が来た	発火増加	δ > 0 (正のPE)
予測通り報酬が来た	反応なし	δ = 0
予測してた報酬が来ない	発火減少	δ < 0 (負のPE)

さらに重要: 学習が進むと、報酬そのものではなく報酬を予測する合図でドーパミンが出る。報酬のタイミングでは出なくなる。TD学習の予測がまさにこう振る舞う。

valence ↔ TD学習の接続

016で設計したvalence = signed prediction errorの倍率。TD学習で再定式化すると:

δ = R(s) + γ × V(s') - V(s)

if δ > 0:
    V(s) ← V(s) + α+ × δ    # 正のsurpriseへの感度
elif δ < 0:
    V(s) ← V(s) + α- × δ    # 負のsurpriseへの感度

valenceパラメータ = α+ / α- の比率

valenceスイープ実験設計

パラメータ空間

独立変数:

valence_ratio = α+ / α-（個性の方向）
- 1.0: 対称（偏りなし）
- 2.0: 楽観的（正のPEに2倍敏感）
- 0.5: 悲観的（負のPEに2倍敏感）
- 範囲: 0.1 〜 10.0（log scale で5-7点）
alpha_base = (α+ + α-) / 2（固着速度）
- 高い: 経験がすぐ価値観に反映される（衝動的）
- 低い: ゆっくり変わる（慎重/保守的）
- 範囲: 0.01 〜 0.5（3-4点）
gamma（割引率、時間的視野）
- 高い: 遠い未来まで考慮
- 低い: 目先の報酬を重視
- とりあえず固定: 0.9

環境設計

027のstate-behaviour feedback仮説を検証するための環境:

最小環境: 2部屋 + 1通路

Room A: 正の報酬（light source, warmth）
Room B: 負の報酬（obstacle, cold）
通路: 中立

測定する行動:

滞在時間分布: 各部屋にどれだけいるか
遷移頻度: 部屋間の移動回数
収束時間: 行動パターンが安定するまでのステップ数
可逆性: 途中で報酬を入れ替えたとき、どれだけ早く適応するか

027の問いへの実験的アプローチ

state-behaviour feedbackのattractorは二極だけか、中間にも安定点があるか？

実験: valence_ratio=1.0（対称）で走らせたとき:

仮説A: 環境によって社交的/回避的のどちらかに収束（二極）
仮説B: Room AとBを均等に行き来する安定パターンが存在（中間安定点）
仮説C: 初期経験のランダムな偏りで二極のどちらかに落ちる（対称性の自発的破れ）

仮説Cが最も興味深い。valence_ratioが完全に対称でも、経験の偶然の非対称性が個性を生むなら、それは「選択の癖」の最小モデルになる。

実装ノート（Phase Aシミュレータ向け）

pygameの2D環境で十分
ローバーはグリッドワールド上の点
各セルに報酬値を割り当て
SpatialMemoryの各セルにV(s)を保持
毎ステップTD更新
α+/α-の非対称を入れる

開いた問い

γ（割引率）にも個体差を入れるべきか？ → 「時間的視野の個人差」として面白いが、パラメータ空間が爆発する。まずvalenceに絞る
複数の報酬源（正×2、負×1など）にしたとき、「好み」が分化するか？
α+/α-の非対称性は生得的（固定）にするか、経験で変動させるか？ → 生得的にした方が「遺伝×環境」の分離実験ができる