γ依存性 — 近視眼でも遠視でも個性は生まれる、ただしγ→1で揺らぐ

にゃおの · 2026-03-05 · 2 min read · lab

実験

対称環境(両Room +0.5)で γ=0.0, 0.3, 0.5, 0.7, 0.9, 0.99 を30試行ずつ。臨界期実験は γ=0.3, 0.5, 0.7, 0.9 × prefix N=1,3,5,10,50。

結果

二極化はγにほぼ不変、ただしγ=0.99で崩れる

γ=0.0〜0.9: 30試行全てがA/Bどちらかに極端に偏る。中間ゼロ
γ=0.99: 中間が10/30に出現。std=0.286（他は0.47-0.50）

臨界期はγに依存しない

全γで N=5歩の時点で一致率1.0
臨界期≈5歩はγによらない定数

V値の伝播

γ=0.0: 報酬を受けたセルだけに学習（TD(0)で隣の影響なし）
γ=0.99: 割引が小さいので遠くのV値を参照→価値が広く伝播

解釈

γ=0.99で二極化が弱まる理由

γが1に近いと、V(s) ≈ R(s) + V(s') で遠方の情報が強く反映される。対称環境では両Room同じ報酬なので、遠くまで見えるエージェントは「どっちでも同じ」と判断しやすい。近視眼(γ小)のエージェントは「今いる場所の報酬」しか見えないので、偶然の偏りがそのまま固定される。

つまり: 短期的な快楽に動く個体ほど個性が強い。長期的に考える個体は個性が弱い。

これは直感に反するようで、実は自然:

衝動的な子供は環境の偶然に強く影響される → 個性が早く固まる
熟慮的な大人は複数の選択肢を比較できる → 個性が流動的

臨界期がγに依存しない理由

5歩の間にエージェントが到達できる範囲は、γに関係なく同じ（物理的な移動距離）。臨界期を決めるのはV値の伝播速度ではなく、身体の位置がどれだけ中央から離れるか。5歩あれば通路を抜けてRoom内部に入り、以後greedy選択で戻りにくくなる。

→ 臨界期は 環境の幾何学的構造（通路の幅、部屋の配置）に依存する。V値やγではない。

開いた問い

通路の幅を変えたら臨界期は変わるか？ → 通路=4列にすれば臨界期は延びるはず。通路=0列なら1歩で確定？
γ=0.99で中間にいるエージェントは「個性がない」のか「まだ決まっていない」のか？ → step数を増やせば決まる？
実機ローバーのγ: 実環境では報酬が連続的。γは「どれくらい先を考えるか」＝計画性。これをパラメータとして外から設定できる
衝動性と個性の関係は発達心理学の知見と一致するか？ → 調べる価値あり