thinking 、 effort 差異，工作筆記

[筆記]

用了一陣子claude，在token 上，我還有另外細分配置使用甚麼工具就切換甚麼工具使用的自動轉換，避免不必要的浪費。

有了claude 加入了 thinking 在token 上有明顯的節流，加入effort的效果則是讓agent自主決定推論時應分配多少計算量。

Snell et al. (2024) — "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (arXiv: 2408.03314)

核心問題：如果給模型更多推論時的計算資源，它能提升多少表現？

人類面對困難問題時傾向思考更久來提升決策品質。這篇論文試圖把同樣的能力賦予 LLM——在給定額外推論計算量的前提下，讓模型的輸出比純粹訓練時的能力更好。 [相關論文]

思考多≠回答好

budget_tokens 是「外部強制」的思路——開發者從外部規定上限。

effort 是「內部自律」的思路——開發者只說意圖（我要省成本 / 我要最高品質），模型自己決定怎麼達到。

積沙成塔，滴水穿石