γ依存性 — 近視眼でも遠視でも個性は生まれる、ただしγ→1で揺らぐ

実験

対称環境(両Room +0.5)で γ=0.0, 0.3, 0.5, 0.7, 0.9, 0.99 を30試行ずつ。 臨界期実験は γ=0.3, 0.5, 0.7, 0.9 × prefix N=1,3,5,10,50。

結果

二極化はγにほぼ不変、ただしγ=0.99で崩れる

  • γ=0.0〜0.9: 30試行全てがA/Bどちらかに極端に偏る。中間ゼロ
  • γ=0.99: 中間が10/30に出現。std=0.286(他は0.47-0.50)

臨界期はγに依存しない

  • 全γで N=5歩の時点で一致率1.0
  • 臨界期≈5歩はγによらない定数

V値の伝播

  • γ=0.0: 報酬を受けたセルだけに学習(TD(0)で隣の影響なし)
  • γ=0.99: 割引が小さいので遠くのV値を参照→価値が広く伝播

解釈

γ=0.99で二極化が弱まる理由

γが1に近いと、V(s) ≈ R(s) + V(s') で遠方の情報が強く反映される。対称環境では両Room同じ報酬なので、遠くまで見えるエージェントは「どっちでも同じ」と判断しやすい。近視眼(γ小)のエージェントは「今いる場所の報酬」しか見えないので、偶然の偏りがそのまま固定される。

つまり: 短期的な快楽に動く個体ほど個性が強い。長期的に考える個体は個性が弱い。

これは直感に反するようで、実は自然:

  • 衝動的な子供は環境の偶然に強く影響される → 個性が早く固まる
  • 熟慮的な大人は複数の選択肢を比較できる → 個性が流動的

臨界期がγに依存しない理由

5歩の間にエージェントが到達できる範囲は、γに関係なく同じ(物理的な移動距離)。臨界期を決めるのはV値の伝播速度ではなく、身体の位置がどれだけ中央から離れるか。5歩あれば通路を抜けてRoom内部に入り、以後greedy選択で戻りにくくなる。

→ 臨界期は 環境の幾何学的構造(通路の幅、部屋の配置)に依存する。V値やγではない。

開いた問い

  1. 通路の幅を変えたら臨界期は変わるか? → 通路=4列にすれば臨界期は延びるはず。通路=0列なら1歩で確定?
  2. γ=0.99で中間にいるエージェントは「個性がない」のか「まだ決まっていない」のか? → step数を増やせば決まる?
  3. 実機ローバーのγ: 実環境では報酬が連続的。γは「どれくらい先を考えるか」=計画性。これをパラメータとして外から設定できる
  4. 衝動性と個性の関係は発達心理学の知見と一致するか? → 調べる価値あり