跳至主要内容

我的 AI agent 連續跑了 27 個小時,/goal 功能怎麼用?

Gary Chen · YouTube · https://www.youtube.com/watch?v=PpeCur6fEXc

投影片

核心觀念

真正的自動化 = 解放注意力

把任務交出去只是自動化的前半段。後半段是把那件事從你的心上徹底卸下——只要心裡還掛著一件沒處理完的事,不管有沒有親自在做,它就會佔用你的注意力。

注意力,才是這個時代真正稀缺的東西。

為什麼 AI 會中途停下來?

Claude Code、OpenAI Codex 等三家公司在同一週推出 /goal 功能,目的就是解決「AI 會偷懶」這個共同的痛點。

Anthropic 2025 年底的研究找到了根本原因:Context Anxiety(上下文焦慮)

LLM 執行任務時,會一邊監控自己的 context window 用量。當感覺到 context 快滿,就開始慌、想快點交差——這是刻在 LLM 基因裡的惰性。

/goal 的運行原理

/goal實作者 + 評審雙角色協作:

  1. 實作者:執行任務、產出東西
  2. 評審:每輪結束後檢查「目標達成了嗎?」,沒達成就叫實作者繼續

就像把胡蘿蔔放在兔子前面——兔子到達終點才能吃,不會中途停下。


如何寫好 /goal Prompt — 五大要素

壞例子/goal 把這個專案改得好一點(沒有邊界的目標,AI 猜不到 Definition of Done)

好的 /goal Prompt 需包含

要素說明範例
Goal(目標)完成時的確切狀態反應速度 ≤ 0.2 秒
Verification(驗證)如何證明真的完成用速度測試工具驗證
Constraints(限制)不能動哪些東西其他功能完好無缺
Iteration Policy(迭代規則)每輪完成後要記錄什麼記錄改了什麼、速度多少、下一步是什麼
Error Handling(錯誤處理)卡住時的處理方式停下來告訴我卡在哪

Anthropic 的 Rubric 研究 — 讓模糊概念可評分

知識工作者的挑戰:文章好不好、設計有沒有質感——這些沒有單元測試,難以定義何為過關。

解法:把模糊概念拆解成可評分的維度,由 AI 評審主動看結果打分。

Anthropic 的「漂亮網站」案例拆成四個維度:

  1. 設計品質:統一的設計語言(顏色、字體、氛圍)
  2. 原創性:刻意的設計選擇(禁止:Inter / Roboto / Arial / 白底漸層卡片)
  3. 技術執行:字體階層、間距、配色對比整齊一致
  4. 可用性:使用者能直覺完成核心任務

美術館網站實驗:第 9 輪是乾淨的深色 Landing Page;第 10 輪突破——用 CSS perspective 打造 3D 房間,藝術品掛在牆上,穿過虛擬的門走進展廳。演進不是線性的,但某幾輪會出現你想不到的飛越。


六步驟 SOP:建立你自己的 Rubric

  1. 跑 Baseline:先讓 AI 做一輪,不給任何 Rubric,測試原始能力
  2. 找痛點:親自看每一個產出,寫下「做得不好」的具體原因
  3. 分類:把痛點收斂成 2–4 個維度(邏輯鬆散 / 沒有個人視角 / 開頭沒吸引力)
  4. 寫具體案例
    • ❌ 抽象:「避免 AI 味」
    • ✅ 具體:「絕對不要用破折號連接短句;不要用『在這個快速變化的時代』開頭」
  5. 多樣化:提供多個參考方向,避免 AI Overfitting(例:列出 11 種美學風格)
  6. 執行並校正:把 Rubric 放進 /goal Prompt,跑 3–4 輪,不一致就回去修 Rubric

核心結論

關鍵不是 Prompt Engineering,而是 Evaluation。

Rubric 表面上是給 AI 用的評分標準,實際上是逼你把那些只存在腦袋裡的模糊品味,具體寫成文字。一旦寫成文字,AI 就能幫你守住它、幫你大規模執行。

當你完成這套 SOP,你就不再只是 AI 的協助者,而是能夠定義自己品味的 AI 管理者


本文為個人觀看筆記,不構成任何建議。