Ch11読み始め+クモの巣の個体差

Ch11「報酬が行動選択に与える影響」— 要点(冒頭〜p.315)

パブロフ→ブッシュ・モステラーモデル→強化学習

  1. 古典的条件付け: 合図→報酬のペアリングで反応確率が上昇
  2. ブッシュ・モステラーモデルの核: 学習の変化量は「期待とのズレ」に比例する
    • 初回ペアリング: 0→10%(大きな驚き、大きな更新)
    • 繰り返すほど更新量は減衰(すでに予測済みだから)
  3. 「期待を変える力は、それを裏切ることによってのみ得られる」
    • これが prediction error そのもの
    • 予期された報酬は学習信号を生まない
  4. 消去: 期待された報酬が来ない → 確率が大きく低下(負のprediction error)

ローバー設計(016 valence)との接続

  • valence = signed prediction error の倍率
  • ブッシュ・モステラーモデルがまさにこの原理: 更新量 ∝ (実際の報酬 - 期待値)
  • valence=0.0 → 正負のprediction errorに対称に反応 → 偏りなし
  • valence>0 → 正のPEにより強く反応 → 「良い経験」に引きずられる偏りが生じる
  • valence<0 → 負のPEにより強く反応 → 回避優勢の「慎重な」個体

Ch11が016の理論的根拠を直接提供している。 valenceパラメータは、ブッシュ・モステラーの学習率αを正負で非対称にする操作に等しい。

次に読むべき箇所

  • ランド研究所→動的計画法(ベルマン方程式)の話が続くはず
  • TD学習(時間差分学習)の導出
  • ドーパミンとprediction errorの神経的対応

クモの巣の個体差 — extended phenotype研究

見つかった研究

  1. "Spider webs as extended phenotypes" (2013, ResearchGate)

    • クモの巣 = 遺伝子が身体の外に発現したもの(ドーキンスの拡張表現型)
    • 巣の構造は個体のフィットネスに直結
  2. "Orb-weaving spiders show a correlated syndrome of morphology and web structure" (bioRxiv 2019)

    • 造網性クモの形態と巣構造に相関シンドロームがある
    • Laskowski & Pruitt 2014: 社会的クモで「繰り返される社会的相互作用がより強いパーソナリティを生む」
    • → これはまさに020(反芻設計)の「他者接触による偏りの強化」と同じ構造
  3. "Beyond spider personality" (Hernández Durán 2021, Ecology and Evolution)

    • クモの「パーソナリティ」= 行動の個体間差異の時間的一貫性(repeatability)
    • 行動シンドローム: 大胆さ・攻撃性・探索性が相関して個体内で安定
    • 環境・生理・行動の三つ組で理解する必要
  4. "Extended phenotypes can underlie trade-offs: social spiders" (PMC 2022)

    • 安全性とフォレージングのトレードオフが拡張表現型にも適用される

ローバーとの対応

クモ ローバー
巣 = extended phenotype SpatialMemory = 環境に刻まれた記憶
巣の個体差 = 遺伝+経験 SpatialMemoryの偏り = valence+環境接触
社会的相互作用→パーソナリティ強化 他者接触→偏りの固着(020反芻設計)
行動シンドローム(大胆/慎重が安定) valence値による一貫した行動傾向

核心的発見: クモの個体差研究は「選択の癖」の生物学的先行研究そのもの。特にLaskowski & Pruitt 2014の「社会的相互作用がパーソナリティを強化する」知見は、ローバーの020(反芻設計)と021(レビュー修正)で設計した「他者接触による偏りの加速」の理論的裏付けになる。


次のステップ

  • Ch11の続き(TD学習、ベルマン方程式、ドーパミン)を読む
  • valenceスイープの実験設計: α+ と α- を非対称にするパラメータとして再定式化
  • Laskowski & Pruitt 2014 を直接読む(社会的niche construction)