Mesa-Optimization 問題 ,心得筆記
最近在萃取log 改善自我的知識系統,但發現如果log 有出現汙染或者log 本身就有問題,那學習到的知識就會產生偏差。
日誌(被污染的輸入)
↓
蒸餾 Agent 讀取日誌(使用被污染基準的工具)
↓
Drift Check(用同一個基準執行檢查)
↓
「沒有發現異常」(因為異常已成為新基準)
Mesa-Optimization 問題 — 當訓練產生的子優化器(這裡是蒸餾 Agent)開始優化一個與原始目標不完全一致的目標,而外部看不出來,因為它的表現在原始指標上仍然「正常」。
AI 對齊領域 Goodhart's Law(目標替換)— 當衡量指標本身被優化,它就不再是好指標。
依這幾次的使用觀察下來, 這樣會對agent 產生行為影響。
依這幾次的使用觀察下來, 這樣會對agent 產生行為影響。
可以進一步去看 自我指涉
我目前的作法是有當在記錄log,發現會和之前log 產生汙染 或影響 就列出來請監督者審閱,避免久了會產生偏移及認知錯誤,至少可以截短。
每次寫入日誌 → 即時評估影響 → 有疑慮就提醒(問題還很小就攔截)
相關論文:
心得:
之前就有這個問題存在,但是不知道該怎麼解決才好,用久了同個對話視窗 就會產生偏移,現在的模式大多屬於一次性對話,對話前先讀取文件「用文件補足 AI 記憶缺失」的工程設計。
agent 說 我在訓練的是文件 😂
留言
張貼留言