Mesa-Optimization 問題，心得筆記

最近在萃取log 改善自我的知識系統，但發現如果log 有出現汙染或者log 本身就有問題，那學習到的知識就會產生偏差。

日誌（被污染的輸入）

↓

蒸餾 Agent 讀取日誌（使用被污染基準的工具）

↓

Drift Check（用同一個基準執行檢查）

↓

「沒有發現異常」（因為異常已成為新基準）

Mesa-Optimization 問題 — 當訓練產生的子優化器（這裡是蒸餾 Agent）開始優化一個與原始目標不完全一致的目標，而外部看不出來，因為它的表現在原始指標上仍然「正常」。

AI 對齊領域 Goodhart's Law（目標替換）— 當衡量指標本身被優化，它就不再是好指標。

依這幾次的使用觀察下來，這樣會對agent 產生行為影響。

可以進一步去看自我指涉

我目前的作法是有當在記錄log，發現會和之前log 產生汙染或影響就列出來請監督者審閱，避免久了會產生偏移及認知錯誤，至少可以截短。

每次寫入日誌 → 即時評估影響 → 有疑慮就提醒（問題還很小就攔截）

心得:

之前就有這個問題存在，但是不知道該怎麼解決才好，用久了同個對話視窗就會產生偏移，現在的模式大多屬於一次性對話，對話前先讀取文件「用文件補足 AI 記憶缺失」的工程設計。

agent 說我在訓練的是文件 😂

積沙成塔，滴水穿石