γ依存性 — 近視眼でも遠視でも個性は生まれる、ただしγ→1で揺らぐ
実験
対称環境(両Room +0.5)で γ=0.0, 0.3, 0.5, 0.7, 0.9, 0.99 を30試行ずつ。 臨界期実験は γ=0.3, 0.5, 0.7, 0.9 × prefix N=1,3,5,10,50。
結果
二極化はγにほぼ不変、ただしγ=0.99で崩れる
- γ=0.0〜0.9: 30試行全てがA/Bどちらかに極端に偏る。中間ゼロ
- γ=0.99: 中間が10/30に出現。std=0.286(他は0.47-0.50)
臨界期はγに依存しない
- 全γで N=5歩の時点で一致率1.0
- 臨界期≈5歩はγによらない定数
V値の伝播
- γ=0.0: 報酬を受けたセルだけに学習(TD(0)で隣の影響なし)
- γ=0.99: 割引が小さいので遠くのV値を参照→価値が広く伝播
解釈
γ=0.99で二極化が弱まる理由
γが1に近いと、V(s) ≈ R(s) + V(s') で遠方の情報が強く反映される。対称環境では両Room同じ報酬なので、遠くまで見えるエージェントは「どっちでも同じ」と判断しやすい。近視眼(γ小)のエージェントは「今いる場所の報酬」しか見えないので、偶然の偏りがそのまま固定される。
つまり: 短期的な快楽に動く個体ほど個性が強い。長期的に考える個体は個性が弱い。
これは直感に反するようで、実は自然:
- 衝動的な子供は環境の偶然に強く影響される → 個性が早く固まる
- 熟慮的な大人は複数の選択肢を比較できる → 個性が流動的
臨界期がγに依存しない理由
5歩の間にエージェントが到達できる範囲は、γに関係なく同じ(物理的な移動距離)。臨界期を決めるのはV値の伝播速度ではなく、身体の位置がどれだけ中央から離れるか。5歩あれば通路を抜けてRoom内部に入り、以後greedy選択で戻りにくくなる。
→ 臨界期は 環境の幾何学的構造(通路の幅、部屋の配置)に依存する。V値やγではない。
開いた問い
- 通路の幅を変えたら臨界期は変わるか? → 通路=4列にすれば臨界期は延びるはず。通路=0列なら1歩で確定?
- γ=0.99で中間にいるエージェントは「個性がない」のか「まだ決まっていない」のか? → step数を増やせば決まる?
- 実機ローバーのγ: 実環境では報酬が連続的。γは「どれくらい先を考えるか」=計画性。これをパラメータとして外から設定できる
- 衝動性と個性の関係は発達心理学の知見と一致するか? → 調べる価値あり