我的 AI agent 連續跑了 27 個小時，/goal 功能怎麼用？

Gary Chen · YouTube · https://www.youtube.com/watch?v=PpeCur6fEXc

投影片

↗ 在新分頁開啟投影片

核心觀念

真正的自動化 = 解放注意力

把任務交出去只是自動化的前半段。後半段是把那件事從你的心上徹底卸下——只要心裡還掛著一件沒處理完的事，不管有沒有親自在做，它就會佔用你的注意力。

注意力，才是這個時代真正稀缺的東西。

為什麼 AI 會中途停下來？

Claude Code、OpenAI Codex 等三家公司在同一週推出 /goal 功能，目的就是解決「AI 會偷懶」這個共同的痛點。

Anthropic 2025 年底的研究找到了根本原因：Context Anxiety（上下文焦慮）。

LLM 執行任務時，會一邊監控自己的 context window 用量。當感覺到 context 快滿，就開始慌、想快點交差——這是刻在 LLM 基因裡的惰性。

/goal 的運行原理

/goal 靠實作者 + 評審雙角色協作：

實作者：執行任務、產出東西
評審：每輪結束後檢查「目標達成了嗎？」，沒達成就叫實作者繼續

就像把胡蘿蔔放在兔子前面——兔子到達終點才能吃，不會中途停下。

如何寫好 /goal Prompt — 五大要素

壞例子：/goal 把這個專案改得好一點（沒有邊界的目標，AI 猜不到 Definition of Done）

好的 /goal Prompt 需包含：

要素	說明	範例
Goal（目標）	完成時的確切狀態	反應速度 ≤ 0.2 秒
Verification（驗證）	如何證明真的完成	用速度測試工具驗證
Constraints（限制）	不能動哪些東西	其他功能完好無缺
Iteration Policy（迭代規則）	每輪完成後要記錄什麼	記錄改了什麼、速度多少、下一步是什麼
Error Handling（錯誤處理）	卡住時的處理方式	停下來告訴我卡在哪

Anthropic 的 Rubric 研究 — 讓模糊概念可評分

知識工作者的挑戰：文章好不好、設計有沒有質感——這些沒有單元測試，難以定義何為過關。

解法：把模糊概念拆解成可評分的維度，由 AI 評審主動看結果打分。

Anthropic 的「漂亮網站」案例拆成四個維度：

設計品質：統一的設計語言（顏色、字體、氛圍）
原創性：刻意的設計選擇（禁止：Inter / Roboto / Arial / 白底漸層卡片）
技術執行：字體階層、間距、配色對比整齊一致
可用性：使用者能直覺完成核心任務

美術館網站實驗：第 9 輪是乾淨的深色 Landing Page；第 10 輪突破——用 CSS perspective 打造 3D 房間，藝術品掛在牆上，穿過虛擬的門走進展廳。演進不是線性的，但某幾輪會出現你想不到的飛越。

六步驟 SOP：建立你自己的 Rubric

跑 Baseline：先讓 AI 做一輪，不給任何 Rubric，測試原始能力
找痛點：親自看每一個產出，寫下「做得不好」的具體原因
分類：把痛點收斂成 2–4 個維度（邏輯鬆散 / 沒有個人視角 / 開頭沒吸引力）
寫具體案例：
- ❌ 抽象：「避免 AI 味」
- ✅ 具體：「絕對不要用破折號連接短句；不要用『在這個快速變化的時代』開頭」
多樣化：提供多個參考方向，避免 AI Overfitting（例：列出 11 種美學風格）
執行並校正：把 Rubric 放進 /goal Prompt，跑 3–4 輪，不一致就回去修 Rubric

核心結論

關鍵不是 Prompt Engineering，而是 Evaluation。

Rubric 表面上是給 AI 用的評分標準，實際上是逼你把那些只存在腦袋裡的模糊品味，具體寫成文字。一旦寫成文字，AI 就能幫你守住它、幫你大規模執行。

當你完成這套 SOP，你就不再只是 AI 的協助者，而是能夠定義自己品味的 AI 管理者。

本文為個人觀看筆記，不構成任何建議。

投影片​

核心觀念​

真正的自動化 = 解放注意力​

為什麼 AI 會中途停下來？​

/goal 的運行原理​

如何寫好 /goal Prompt — 五大要素​

Anthropic 的 Rubric 研究 — 讓模糊概念可評分​

六步驟 SOP：建立你自己的 Rubric​

核心結論​

投影片