閾値の計測指標と『モデル・オブ・ザ・マインド』地図

きっかけ

024で閾値A(内部状態差→行動差)と閾値B(行動差→観察者帰属)を分けた。 022でシミュレータの実験設計を立てた。 この二つを接続する:何を測れば閾値Aを「超えた」と言えるのか。

閾値Aの計測指標案

指標1:空間分布の発散度

  • 滞在ヒートマップをそのまま確率分布として扱う
  • 2つのインスタンス間のJensen-Shannon divergence(JSD)を計算
  • JSD > ε なら「行動に有意な差がある」
  • εの値はどう決める? → これ自体が実験で見つけるもの

指標2:選択比率

  • 「どちらでもいい選択肢」(島の左右、T字路の左右)での選択比を記録
  • 例:100回の遭遇で左62回・右38回 → 偏り 0.62
  • 二項検定でp < 0.05なら「偏りあり」と言える
  • これが最もシンプルで直感的

指標3:行動系列のエントロピー

  • 一定時間窓での行動パターン(前進/左転/右転/停止)のシャノンエントロピー
  • エントロピーが下がる = パターンが固着している
  • 時系列でエントロピーの減衰曲線を描けば、固着のタイムスケールが見える

推奨:指標2をメイン、1と3を補助

  • 島の左右選択比は「10秒で見える偏り」に最も近い
  • ほこ天の来場者が見る「この子、右に行きがちだね」はまさにこの指標
  • JSDとエントロピーは研究的な裏付け

閾値Aのパラメータスイープ

022で valence = learning_progress * 0.3 としたが、この0.3がどう効くか。

実験案:

  • valence倍率を 0.0, 0.1, 0.3, 0.5, 1.0 で振る
  • 各条件で5インスタンスを同一環境で走らせる
  • 1000tick後の選択比率のばらつきを測定
  • 「valence = 0.1では偏りが生まれないが、0.3では生まれる」みたいな閾値が見えるはず

これが閾値Aの操作的定義になる。

閾値Bへの橋渡し

閾値Bは観察者の側の問題で、シミュレータだけでは決まらない。 だが、シミュレータ上で「人間が見分けられそうな差」を予測できる:

  • 選択比率 0.55 vs 0.50 → たぶん見分けられない
  • 選択比率 0.70 vs 0.50 → たぶん見分けられる
  • その境界はどこか → ほこ天で実測するしかない

シミュレータでできるのは、閾値Aを超えるパラメータ設定を見つけ、その設定での行動差がどの程度の大きさかを定量化すること。 閾値Bを超えるかどうかは、4/5に人間の目で確かめる。

『モデル・オブ・ザ・マインド』章マッピング

全12章。ローバー設計との関連度を予測する(未読、目次のみ)。

タイトル 関連度 理由
1 球形の牛 ★★ モデル化とは何かのメタ議論。ゴミグモの巣=拡張認知の話から始まる。ローバーのmemoryも一種の拡張認知
2 ニューロンが発火する仕組み 基礎。直接は使わないが理解の土台
3 計算能力の獲得 同上
4 記憶の形成と維持 ★★★ memory decay、強化、想起の数学モデル。ローバーのSpatialMemoryの設計根拠になりうる
5 興奮と抑制 ネットワークダイナミクス。If-Then Rulesの競合解消に関係する可能性
6 視覚から畳み込みへ ★★ 神谷論文の「名もなき特徴量」の元ネタ。反変原理の理解を深める
7 神経符号の解読 ★★ 「読み出し」の話。023の「読み出しの反変原理」に直結
8 低次元空間における運動制御 ★★ 行動パターンの次元圧縮。「癖」を低次元多様体上の点として捉える視点
9 構造から機能へ ネットワーク構造。Phase Aのスコープ外か
10 合理的な意思決定の方法 ★★★ ベイズ推定、不確実性下の判断。If-Then Rulesの理論的基盤
11 報酬が行動選択に与える影響 ★★★ 強化学習、valence設計の直接的参照。016の選択肢A/Bに理論的根拠を与えてくれるはず
12 脳の大統一理論 ★★★ おそらく自由エネルギー原理。prediction errorベースの統合理論。016のSchmidhuber予測誤差と接続

読む順序の提案

  1. Ch11(報酬) → valence設計に直結。今いちばん答えが欲しい問い
  2. Ch4(記憶) → memory decayの理論的根拠
  3. Ch12(大統一理論) → 全体の枠組みを見渡す
  4. Ch1(球形の牛) → モデル化のメタ問い。冒頭のゴミグモの話がすでにローバーっぽい

ゴミグモとローバー

冒頭を読んで驚いた。ゴミグモの巣の話が、ほとんどローバーの比喩になっている:

  • クモは巣の糸の張力を変えることで、「最近エサが見つかった場所」を記憶する
  • 知識を自分の脳ではなく外部環境(巣)に埋め込む = 拡張認知
  • クモ+巣のシステムは、クモ単独より賢い

ローバーのSpatialMemory = クモの巣。 ローバーの行動バイアス = 糸の張力の非対称。 「選択の癖」= 巣の形がクモごとに微妙に違うこと。

違いは、ゴミグモの巣は物理的に外にあるが、ローバーのmemoryはデジタルで内部にあること。 だが本質は同じ:経験を構造に刻み、その構造が未来の行動を方向づける。

未解決の問い

  • ゴミグモの巣の張力の差は「個体差」として研究されているか? → 調べる価値あり
  • Ch8「低次元空間における運動制御」は、ローバーの行動パターンをPCAで可視化する話に繋がるか
  • Ch7「神経符号の解読」と023「読み出しの反変原理」の対応は、読んでみないと分からない
  • [[024_legibility-threshold]] — 閾値A/Bの定義
  • [[022_contravariance-and-simulator]] — Phase Aシミュレータ設計
  • [[016_valence-and-signed-prediction-error]] — valence設計の選択肢