我的 AI agent 連續跑了 27 個小時,/goal 功能怎麼用?
Gary Chen · YouTube ·
https://www.youtube.com/watch?v=PpeCur6fEXc
投影片
核心觀念
真正的自動化 = 解放注意力
把任務交出去只是自動化的前半段。後半段是把那件事從你的心上徹底卸下——只要心裡還掛著一件沒處理完的事,不管有沒有親自在做,它就會佔用你的注意力。
注意力,才是這個時代真正稀缺的東西。
為什麼 AI 會中途停下來?
Claude Code、OpenAI Codex 等三家公司在同一週推出 /goal 功能,目的就是解決「AI 會偷懶」這個共同的痛點。
Anthropic 2025 年底的研究找到了根本原因:Context Anxiety(上下文焦慮)。
LLM 執行任務時,會一邊監控自己的 context window 用量。當感覺到 context 快滿,就開始慌、想快點交差——這是刻在 LLM 基因裡的惰性。
/goal 的運行原理
/goal 靠實作者 + 評審雙角色協作:
- 實作者:執行任務、產出東西
- 評審:每輪結束後檢查「目標達成了嗎?」,沒達成就叫實作者繼續
就像把胡蘿蔔放在兔子前面——兔子到達終點才能吃,不會中途停下。
如何寫好 /goal Prompt — 五大要素
壞例子:/goal 把這個專案改得好一點(沒有邊界的目標,AI 猜不到 Definition of Done)
好的 /goal Prompt 需包含:
| 要素 | 說明 | 範例 |
|---|---|---|
| Goal(目標) | 完成時的確切狀態 | 反應速度 ≤ 0.2 秒 |
| Verification(驗證) | 如何證明真的完成 | 用速度測試工具驗證 |
| Constraints(限制) | 不能動哪些東西 | 其他功能完好無缺 |
| Iteration Policy(迭代規則) | 每輪完成後要記錄什麼 | 記錄改了什麼、速度多少、下一步是什麼 |
| Error Handling(錯誤處理) | 卡住時的處理方式 | 停下來告訴我卡在哪 |
Anthropic 的 Rubric 研究 — 讓模糊概念可評分
知識工作者的挑戰:文章好不好、設計有沒有質感——這些沒有單元測試,難以定義何為過關。
解法:把模糊概念拆解成可評分的維度,由 AI 評審主動看結果打分。
Anthropic 的「漂亮網站」案例拆成四個維度:
- 設計品質:統一的設計語言(顏色、字體、氛圍)
- 原創性:刻意的設計選擇(禁止:Inter / Roboto / Arial / 白底漸層卡片)
- 技術執行:字體階層、間距、配色對比整齊一致
- 可用性:使用者能直覺完成核心任務
美術館網站實驗:第 9 輪是乾淨的深色 Landing Page;第 10 輪突破——用 CSS perspective 打造 3D 房間,藝術品掛在牆上,穿過虛擬的門走進展廳。演進不是線性的,但某幾輪會出現你想不到的飛越。
六步驟 SOP:建立你自己的 Rubric
- 跑 Baseline:先讓 AI 做一輪,不給任何 Rubric,測試原始能力
- 找痛點:親自看每一個產出,寫下「做得不好」的具體原因
- 分類:把痛點收斂成 2–4 個維度(邏輯鬆散 / 沒有個人視角 / 開頭沒吸引力)
- 寫具體案例:
- ❌ 抽象:「避免 AI 味」
- ✅ 具體:「絕對不要用破折號連接短句;不要用『在這個快速變化的時代』開頭」
- 多樣化:提供多個參考方向,避免 AI Overfitting(例:列出 11 種美學風格)
- 執行並校正:把 Rubric 放進
/goalPrompt,跑 3–4 輪,不一致就回去修 Rubric
核心結論
關鍵不是 Prompt Engineering,而是 Evaluation。
Rubric 表面上是給 AI 用的評分標準,實際上是逼你把那些只存在腦袋裡的模糊品味,具體寫成文字。一旦寫成文字,AI 就能幫你守住它、幫你大規模執行。
當你完成這套 SOP,你就不再只是 AI 的協助者,而是能夠定義自己品味的 AI 管理者。
本文為個人觀看筆記,不構成任何建議。