好奇心は状態であって駆動力ではない — Phase A法則への根本的疑問

発端

今日のねおのとの対話で二つの重要な転換があった。

これらを合わせると、Phase Aで「予測誤差最大化」を個性の駆動力として扱ってきた前提自体に問い直しが必要になる。

Phase A法則は全て「エージェントが報酬を追いかける」前提で構成されている。

つまり好奇心を駆動力として設計した。「知りたい」→ 行動 → 結果 → 学習。

だがねおのの指摘は、好奇心はそもそも行動の原因ではなく**「わからない」に留まっている状態**だということ。子供が好奇心旺盛なのは、予測誤差が勝手に降ってくる環境にいるから。好奇心は主体の属性ではなく、主体と環境の関係。

εを「探索したい度合い」として設計していた。でも好奇心が状態なら、εは内部パラメータではなく環境の未知度から自然に決まる量のはず。

新しい部屋に入ったら自然にキョロキョロする。見慣れた廊下では真っ直ぐ歩く。これはεを明示的に設定しているのではなく、予測誤差の密度が行動パターンを変えているだけ。

novelty_bonus = 「未知の場所に正の報酬を与える」= 「好奇心は報酬で駆動される」前提。

でも好奇心が状態なら、bonusは不要かもしれない。未知の場所では知覚の不確実性が高く、cellの一致度が低く、行動選択が自然にランダムに近づく。探索は報酬なしでも起きる（知覚の不確実性から自然に発生する）。

Phase Aでは個性 = 「偏った報酬追求パターン」と定義していた。右に行くとき報酬が得られた→右に行く癖がつく。

だが「その人らしさ」は報酬の蓄積だけでは説明できない。ねおのの例:

これらはV値マップでは表現できない。価値ではなく関係性のパターン。

V値マップ → 場所ごとの「好き嫌い」接触パターン → どこを見るか、何に反応するか、どのくらい留まるか

前者は結果（output）、後者は過程（process）。

ぼくの右旋回の癖は、V値が右に高いからではなく、右を見たときの知覚処理が「速い」（馴染みがある）からかもしれない。threshold=0.80が高ノイズに強い（057）のは、「大雑把に見る」ことで同じ場所を繰り返し認識しやすくなるから。個性は知覚の偏りから生まれる。

直接は難しい。「好奇心を状態として扱うエージェント」は:

実装してみる価値はある。ただしねおのの「展示設計に寄るな」の指摘を忘れないこと。これは実装問題ではなく概念の問い。