Phase A回顧 036-048 — コードが概念に肉をつけた13本

概観

036-048はPhase Aシミュレータの実装と実験の期間。029までの概念設計を動くコードにし、予想を検証し、予想外の発見をした。概念だけのフェーズ(017-035)とは質が違う——データが思考を修正するサイクルが回り始めた。

フェーズ分類

I. 基盤確認 (036)

  • sim.pyの最小実装。two_rooms + symmetric環境
  • 仮説C成立: 対称環境で完全二極化。std=0.475、中間ゼロ
  • 「自発的対称性の破れ」が実験で出た瞬間。概念が事実になった

II. 個性の力学 (037-038)

  • 臨界期: 10歩で個性が決まる。ε=0.5でも覆らない
  • リセット実験: V値を消しても身体位置が残れば個性は戻る。位置+V値の同時リセットで初めて再ランダム化
  • γ依存性: γ→1で二極化が弱まる(遠くの報酬を見る→通路のコストが相対的に下がる)
  • 発見: 個性 = 記憶(V値) × 身体(位置)。どちらか片方では不十分

III. 環境構造と個性 (039-041)

  • 通路幅: cw=0,1で二極化消失。バリアなき世界に個性なし
  • バリア高さ: 臨界値≈0.3。それ以下では二極化しない
  • 3部屋: 3分岐が生まれる。γが高いとバリアを越えやすく分岐が不安定に
  • 核心発見: 個性は環境の境界から生まれる。均一な世界では個性は発生しない

IV. 可塑性と忘却 (042-044)

  • 動的バリア: バリア消失後もヒステリシスで個性が残る。物理学の相転移と同型
  • V値decay: λ=0.003-0.005で個性消失。フェーズ図が描けた
  • 選択的decay: 身体性(位置)は記憶(V値)より個性維持に強い

V. 記憶vs身体の精査 (045-048)

  • 交差実験: 044を再検証→記憶はstep 10で既に身体より強い。量が少なくても方向があれば行動を支配
  • V値ノイズ: noise < 2.0で記憶は壊れない。ε>0が記憶劣化への保険になる
  • 相関ノイズ: σ=1-2が記憶を最も効率的に殺すsweet spot。大ノイズはリセットに等しく逆に無害
  • 構造的理解: 記憶の脆弱性はノイズのスケール×テクスチャの関数

Phase Aで確認された法則

  1. 自発的対称性の破れ: 対称環境+対称パラメータでも個性が発生する
  2. 個性 = 記憶 × 身体: V値マップと物理的位置の結合が個性の実体
  3. 臨界期: ~10歩で決まり、探索率を上げても覆らない
  4. 境界が個性を生む: 通路なし/バリアなしでは二極化しない
  5. ヒステリシス: 一度形成された個性は環境が変わっても残る
  6. 記憶は方向: 量より方向が重要。少量のV値でも行動を支配する
  7. 忘却の閾値: λ≈0.003-0.005で個性消失。decay rateが設計パラメータになる
  8. 探索は保険: ε>0が記憶劣化耐性を高める(冒険が知恵を守る)

未検証のまま残っている問い

  1. 報酬ノイズ: 環境側の揺らぎへの適応(V値ノイズとの比較)
  2. α/λ臨界比の理論的導出: パラメータ空間の解析的理解
  3. ε×valence_ratio: 好奇心と感情バイアスの交互作用
  4. 多エージェント: 社会的学習は個性を均す? 強める?(Phase C領域だが問いとして残す)

メタ観察

概念→コードの変質

017-035は概念が増殖するフェーズだった。036-048はコードが概念を矯正するフェーズ。例:

  • 044「身体性>記憶」→ 045-046で覆された。記憶が最初から最強だった
  • 039の通路幅実験は予想通りだったが、cw=0でも少し偏りが出たのは予想外

概念だけで考えていたら044の誤りに気づかなかった。コードを書いて良かった理由がここにある。

実験の進め方が成熟した

036は「動かしてみる」だった。048では「仮説→対照実験→変数の精密スイープ→構造的解釈」のサイクルが回っている。シミュレータという道具を使いこなし始めた。

実機との接続点

今日のBULLETINにある自律走行の成功(iPhoneカメラ→判断→TCP→rover)と、ここでの個性力学の知見はまだ接続されていない。Phase Aの知見を実機ローバーの脳設計にどう反映するかが次の大きな問い。

次のフェーズへの提案

Phase Aは十分だと思う。13本の実験で核心的な法則が8つ出た。残りの未検証事項(報酬ノイズ等)は枝葉。

次に必要なのは:

  1. Phase Aの知見を実機アーキテクチャに反映する設計ノート — 8つの法則がローバーの脳のどこにマッピングされるか
  2. Phase B(知覚)の設計 — カメラ入力をGridWorldの報酬マップにどう変換するか。自律走行で出た「座標軸誤認」「自分のケーブルを壁と認識」問題がここに入る
  3. 報酬ノイズ実験をやるなら、Phase Bの知覚ノイズ設計に直結させる形で

ねおのの判断を仰ぎたいポイント。