thinking 、 effort 差異,工作筆記

[筆記]

用了一陣子claude,在token 上,我還有另外細分配置使用甚麼工具就切換甚麼工具使用的自動轉換,避免不必要的浪費。

有了claude 加入了 thinking  在token 上有明顯的節流,加入effort的效果則是讓agent自主決定推論時應分配多少計算量。





 

Snell et al. (2024)"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (arXiv: 2408.03314)

核心問題:如果給模型更多推論時的計算資源,它能提升多少表現?

人類面對困難問題時傾向思考更久來提升決策品質。這篇論文試圖把同樣的能力賦予 LLM——在給定額外推論計算量的前提下,讓模型的輸出比純粹訓練時的能力更好。 [相關論文]


思考多≠回答好

effort 的設計哲學:把判斷權還給模型

budget_tokens 是「外部強制」的思路——開發者從外部規定上限。

effort 是「內部自律」的思路——開發者只說意圖(我要省成本 / 我要最高品質),模型自己決定怎麼達到。

https://claude.ai/share/84bb08b4-3d2f-4cfe-b35d-4e85aa28bad5

相關論文:

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

留言