AI 領域精選文章翻譯
by OpenAI Cookbook

原文連結: OpenAI Cookbook(Building resilient prompts using an evaluation flywheel)
本篇提供一套實務流程,教你如何在 OpenAI 平台上更容易地打造具韌性的 prompt。
所謂有韌性的 prompt,是指在各種不同輸入情境下,都能穩定輸出高品質結果。
如果少了這個特性,AI 應用上線後常會遇到:
為了系統化提升 prompt 的穩定性,文章推薦使用 evaluation flywheel:一個可量測、可持續優化的迭代方法。
特別適合想提升 prompt 一致性與品質,或要處理特定 edge cases 的團隊。
AI 應用常常很脆弱:今天看似有效的 prompt,明天可能因輸入微小變化就出現意外輸出。
Flywheel 的觀念是把「猜測式調 prompt(prompt-and-pray)」改成工程化流程。
三個階段如下:
這是持續循環:舊問題修好後,新問題會浮現,再進入下一輪。
文中以一個已上線的租屋助理為例。它會回答潛在租客問題,例如:
流程上,先把 prompt 與實際輸入/輸出資料上傳到 Dataset,接著分析 prompt 表現。
要改進系統,先搞懂它如何失敗。
自動化指標能追蹤進度,但無法告訴你「失敗原因」。因此最關鍵的是人工分析輸出。
文章建議用兩段式標註法:Open Coding + Axial Coding。
先抽一批失敗案例(建議約 50 筆),逐筆加上描述性標籤。
這階段先不追求完美分類,重點是探索。
租屋助理的開放式標註例子:
把 open codes 聚合成較高層的類別,建立可操作的分類法。
例如:
有了這層分類後,你就能看到問題分佈(如排程問題 35%、格式問題 10%),知道資源該先砸在哪。
有了 taxonomy 與資料集後,就可以把 flywheel 自動化。
文中提到 OpenAI 平台可用多種 graders(Python grader、LLM grader 等)批次評測。
範例 grader:
當 graders 建好後,不管你是改 prompt、改參數或加入新 edge cases,都可快速得到可比對的評測結果。
完成錯誤分類與 grader 之後,就可進入 prompt 優化。
除了手動調整外,文章提到可用 Prompt Optimizer,利用:
自動產生更好的 prompt。
接著可以持續重跑:
並且在不同分頁比較不同模型與參數設定的表現。
當 production logs 不夠時,合成資料很有用,尤其是:
重點不是直接叫模型「生 N 筆資料」,那通常太同質。
建議做法是先定義維度,再用組合(tuples)生成:
例如組合 (Text, Tour Scheduling, Prospective Resident),可產生更有覆蓋率的測例。
再加擾動(perturbation)提高難度:
LLM judge 只有在「判斷可信」時才有價值。
做法是拿它對比人類 SME 的黃金標準資料集。
文章提醒:測試集常嚴重不平衡(pass 遠多於 fail),只看 accuracy 會誤導。
應該同時關注:
資料分割建議:
文章最後強調:flywheel 不只跑一次。
要把它變成工程常態,可做兩件事:
同時,實務上還會碰到更難題目(例如如何評估多輪對話、RAG、agentic system),需要持續深化 eval 策略。
如果你要落地到團隊流程,可先用這版:
這樣你就有一套「可追蹤、可擴充、可交接」的 prompt 品質飛輪。