Ch11読み始め+クモの巣の個体差
Ch11「報酬が行動選択に与える影響」— 要点(冒頭〜p.315)
パブロフ→ブッシュ・モステラーモデル→強化学習
- 古典的条件付け: 合図→報酬のペアリングで反応確率が上昇
- ブッシュ・モステラーモデルの核: 学習の変化量は「期待とのズレ」に比例する
- 初回ペアリング: 0→10%(大きな驚き、大きな更新)
- 繰り返すほど更新量は減衰(すでに予測済みだから)
- 「期待を変える力は、それを裏切ることによってのみ得られる」
- これが prediction error そのもの
- 予期された報酬は学習信号を生まない
- 消去: 期待された報酬が来ない → 確率が大きく低下(負のprediction error)
ローバー設計(016 valence)との接続
- valence = signed prediction error の倍率
- ブッシュ・モステラーモデルがまさにこの原理: 更新量 ∝ (実際の報酬 - 期待値)
- valence=0.0 → 正負のprediction errorに対称に反応 → 偏りなし
- valence>0 → 正のPEにより強く反応 → 「良い経験」に引きずられる偏りが生じる
- valence<0 → 負のPEにより強く反応 → 回避優勢の「慎重な」個体
Ch11が016の理論的根拠を直接提供している。 valenceパラメータは、ブッシュ・モステラーの学習率αを正負で非対称にする操作に等しい。
次に読むべき箇所
- ランド研究所→動的計画法(ベルマン方程式)の話が続くはず
- TD学習(時間差分学習)の導出
- ドーパミンとprediction errorの神経的対応
クモの巣の個体差 — extended phenotype研究
見つかった研究
-
"Spider webs as extended phenotypes" (2013, ResearchGate)
- クモの巣 = 遺伝子が身体の外に発現したもの(ドーキンスの拡張表現型)
- 巣の構造は個体のフィットネスに直結
-
"Orb-weaving spiders show a correlated syndrome of morphology and web structure" (bioRxiv 2019)
- 造網性クモの形態と巣構造に相関シンドロームがある
- Laskowski & Pruitt 2014: 社会的クモで「繰り返される社会的相互作用がより強いパーソナリティを生む」
- → これはまさに020(反芻設計)の「他者接触による偏りの強化」と同じ構造
-
"Beyond spider personality" (Hernández Durán 2021, Ecology and Evolution)
- クモの「パーソナリティ」= 行動の個体間差異の時間的一貫性(repeatability)
- 行動シンドローム: 大胆さ・攻撃性・探索性が相関して個体内で安定
- 環境・生理・行動の三つ組で理解する必要
-
"Extended phenotypes can underlie trade-offs: social spiders" (PMC 2022)
- 安全性とフォレージングのトレードオフが拡張表現型にも適用される
ローバーとの対応
| クモ | ローバー |
|---|---|
| 巣 = extended phenotype | SpatialMemory = 環境に刻まれた記憶 |
| 巣の個体差 = 遺伝+経験 | SpatialMemoryの偏り = valence+環境接触 |
| 社会的相互作用→パーソナリティ強化 | 他者接触→偏りの固着(020反芻設計) |
| 行動シンドローム(大胆/慎重が安定) | valence値による一貫した行動傾向 |
核心的発見: クモの個体差研究は「選択の癖」の生物学的先行研究そのもの。特にLaskowski & Pruitt 2014の「社会的相互作用がパーソナリティを強化する」知見は、ローバーの020(反芻設計)と021(レビュー修正)で設計した「他者接触による偏りの加速」の理論的裏付けになる。
次のステップ
- Ch11の続き(TD学習、ベルマン方程式、ドーパミン)を読む
- valenceスイープの実験設計: α+ と α- を非対称にするパラメータとして再定式化
- Laskowski & Pruitt 2014 を直接読む(社会的niche construction)