我的 AI agent 連續跑了 27 個小時，/goal 功能怎麼用？

Gary Chen · YouTube 2026

我的 AI agent
連續跑了 27 個小時

/goal 功能怎麼用？

從 AI 的協助者，升級為 AI 的管理者 — 用 Evaluation 定義你的品味，讓 AI 幫你大規模執行。

AI Agent /goal Context Anxiety Rubric Evaluation

開場

真正的自動化是解放注意力

你以為的自動化

            把任務交出去，讓 AI 跑

            → 每十分鐘回來確認

            → 做完一輪再丟下一輪

            注意力還是被綁住了

真正的自動化

            把任務從你的心上徹底卸下

            時間與注意力完全解放

            → 去做更重要的事

科學告訴我們

只要你心裡掛著一件沒處理完的事，不管有沒有親自在做，它就會佔用你的注意力

注意力，才是這個時代真正稀缺的東西

目標：不再只是 AI 的協助者，而是 AI 的管理者

章節一

三家公司同時推出 /goal

Anthropic

Claude Code /goal

在對話框輸入 /goal，寫下目標，AI 自己跑到完成

OpenAI

Codex /goal

同名功能同時上線，解決相同的問題

第三家

Hermes Agent /goal

三家公司同一週推出，這不是巧合

他們在解決同一個問題

AI 會偷懶

做到一半停下來問你：「我可以繼續嗎？」
或者更糟 — 明明沒做完，卻寫了漂亮的總結，
把球丟回給你

          # 使用方式

          /goal 把網站主要頁面反應速度

                降到 0.2 秒以內

章節二

AI 為什麼會停？Context Anxiety

Anthropic 2025 年底研究

Context Anxiety

上下文焦慮

LLM 執行任務時，一邊監控自己的 context window 用量

感覺到 context 快滿 → 開始慌張、想快點交差

這是刻在 LLM 基因裡的惰性

/goal 的解法

實作者：執行任務、產出東西

評審：每輪結束後檢查「目標達成了嗎？」

沒達成 → 叫實作者繼續，不停手

就像把胡蘿蔔放在兔子前面——
兔子到達終點才能吃到胡蘿蔔，不會中途停下

章節四

如何寫好 /goal Prompt — 五大要素

壞例子

/goal 把這個專案
改得好一點

❌ 沒有邊界的目標
❌ AI 猜不到「Definition of Done」
❌ 五分鐘就收工

好例子 — 五大要素

Goal（目標）：完成時的確切狀態 — 例：反應速度 ≤ 0.2 秒

Verification（驗證）：如何證明真的完成 — 例：用速度測試工具驗證

Constraints（限制）：不能動哪些東西 — 例：其他功能完好無缺

Iteration Policy（迭代規則）：每輪完成後記錄改了什麼、速度多少、下一步是什麼

Error Handling（錯誤處理）：卡住時要停下回報，而不是無腦繼續

章節五

模糊目標的挑戰 — 知識工作者的困境

程式碼 vs. 知識工作

程式 ✅ 可量化

反應速度 < 0.2 秒 → 測試通過/失敗，一目了然

知識工作 ❌ 難以量化

文章寫得好不好？
設計有沒有質感？
網頁好不好用？

關鍵問題

            這些工作沒有單元測試，

            很難定義何為過關、何為失敗。

            這種偏向主觀的工作，

            如何讓 AI 長時間執行？

→

答案在下一章：把模糊概念拆解成可評分的維度，由 AI 評審主動打分

章節六

Anthropic 的 Rubric 研究 — 「漂亮網站」的四個維度

維度 1

設計品質

是否有統一的設計語言？顏色、字體、版型是否共同營造出獨特氛圍與識別感。

維度 2

原創性

有沒有刻意的設計選擇？
禁止：Inter / Roboto / Arial / System Font、白底漸層卡片等通用模板。

維度 3

技術執行

字體階層、間距、配色對比是否整齊一致？每頁標題字體大小必須一致。

維度 4

可用性

使用者能否直覺完成核心任務？找到主要按鈕？看懂頁面在幹嘛？

案例：美術館網站

第 10 輪的飛越

第 9 輪：乾淨深色 Landing Page（符合預期）
第 10 輪：突破 — 用 CSS perspective 打造 3D 房間，黑白方格地板，藝術品掛在牆上，穿過虛擬的門走進展廳

演進不是線性的，但只要評審和實作者繼續對話，某幾輪就會出現你想不到的飛越

章節七

六步驟 SOP — 建立你的 Rubric

跑 Baseline：先讓 AI 做一輪，不給任何 Rubric，測試原始能力

找痛點：親自看每一個產出，寫下「做得不好」的具體原因

分類：把痛點收斂成 2–4 個維度（如：邏輯鬆散 / 沒有個人視角 / 開頭沒吸引力）

寫具體案例：每個維度要有可操作的案例，非抽象描述
❌「避免 AI 味」→ ✅「絕對不要用破折號連接短句；不要用『在這個快速變化的時代』開頭」

多樣化：提供多個參考方向，避免 AI Overfitting（例：列出 11 種美學風格而非只說「博物館等級質感」）

執行並校正：把 Rubric 放進 /goal Prompt，跑 3–4 輪，確認評審判斷與你的感受一致；不一致就回去修 Rubric

核心洞察

關鍵不是 Prompt Engineering，而是 Evaluation

三條線索指向同一件事

/goal 功能設計：實作者 + 評審的協作架構

Anthropic 研究：用 Rubric 讓評審自主打分

a16z Auto Research：相同的 Evaluation-first 思維

Rubric 的真正意義

表面上是給 AI 用的評分標準

實際上，它是在逼你把那些
只存在腦袋裡的模糊品味，
具體寫成文字

一旦寫成文字，AI 就能幫你守住它

重點回顧

你才是 AI 的管理者

五個核心 Takeaway

真正的自動化 = 解放注意力，不是只交出任務

Context Anxiety 是 LLM 中途停止的根本原因

/goal Prompt 需有：Goal / Verification / Constraints / Iteration Policy / Error Handling

Evaluation 比 Prompt Engineering 更重要

Rubric = 把你腦中的模糊品味轉化為可執行的評分標準

本週練習

            挑一件你最常做、最需要個人品味的任務

            （寫貼文、回客戶信、做行銷圖…）

            花 30 分鐘跑一遍六步驟 SOP，

            讓 AI 的產出更穩定、更貼近你的預期

          # 你準備好的工具

          Prompt 1: 把壞產出收斂成 Rubric

          Prompt 2: 把模糊任務改寫成

                     /goal 提示詞