Gary Chen · YouTube
2026
我的 AI agent
連續跑了 27 個小時
/goal 功能怎麼用?
從 AI 的協助者,升級為 AI 的管理者 — 用 Evaluation 定義你的品味,讓 AI 幫你大規模執行。
AI Agent
/goal
Context Anxiety
Rubric
Evaluation
開場
真正的自動化是解放注意力
你以為的自動化
把任務交出去,讓 AI 跑
→ 每十分鐘回來確認
→ 做完一輪再丟下一輪
注意力還是被綁住了
真正的自動化
把任務從你的
心上
徹底卸下
時間與注意力完全解放
→ 去做更重要的事
科學告訴我們
只要你心裡掛著一件沒處理完的事,
不管有沒有親自在做
,它就會佔用你的注意力
注意力,才是這個時代
真正稀缺的東西
目標:不再只是 AI 的協助者,而是
AI 的管理者
章節一
三家公司同時推出 /goal
Anthropic
Claude Code
/goal
在對話框輸入 /goal,寫下目標,AI 自己跑到完成
OpenAI
Codex
/goal
同名功能同時上線,解決相同的問題
第三家
Hermes Agent
/goal
三家公司同一週推出,這不是巧合
他們在解決同一個問題
AI 會偷懶
做到一半停下來問你:
「我可以繼續嗎?」
或者更糟 — 明明沒做完,卻寫了漂亮的總結,
把球丟回給你
# 使用方式
/goal
把網站主要頁面反應速度
降到 0.2 秒以內
章節二
AI 為什麼會停?Context Anxiety
Anthropic 2025 年底研究
Context Anxiety
上下文焦慮
LLM 執行任務時,一邊
監控自己的 context window
用量
感覺到 context 快滿 → 開始
慌張
、想快點交差
這是
刻在 LLM 基因裡的惰性
/goal 的解法
1
實作者
:執行任務、產出東西
2
評審
:每輪結束後檢查「目標達成了嗎?」
3
沒達成 → 叫實作者
繼續
,不停手
就像把胡蘿蔔放在兔子前面——
兔子到達終點才能吃到胡蘿蔔
,不會中途停下
章節四
如何寫好 /goal Prompt — 五大要素
壞例子
/goal 把這個專案
改得好一點
❌ 沒有邊界的目標
❌ AI 猜不到「Definition of Done」
❌ 五分鐘就收工
好例子 — 五大要素
1
Goal(目標)
:完成時的確切狀態 — 例:反應速度 ≤ 0.2 秒
2
Verification(驗證)
:如何證明真的完成 — 例:用速度測試工具驗證
3
Constraints(限制)
:不能動哪些東西 — 例:其他功能完好無缺
4
Iteration Policy(迭代規則)
:每輪完成後記錄改了什麼、速度多少、下一步是什麼
5
Error Handling(錯誤處理)
:卡住時要停下回報,而不是無腦繼續
章節五
模糊目標的挑戰 — 知識工作者的困境
程式碼 vs. 知識工作
程式 ✅ 可量化
反應速度 < 0.2 秒 → 測試通過/失敗,一目了然
知識工作 ❌ 難以量化
文章寫得好不好?
設計有沒有質感?
網頁好不好用?
關鍵問題
這些工作沒有單元測試,
很難定義
何為過關、何為失敗
。
這種偏向主觀的工作,
如何讓 AI 長時間執行?
→
答案在下一章
:把模糊概念拆解成可評分的維度,由 AI
評審
主動打分
章節六
Anthropic 的 Rubric 研究 — 「漂亮網站」的四個維度
維度 1
設計品質
是否有統一的設計語言?顏色、字體、版型是否共同營造出獨特氛圍與識別感。
維度 2
原創性
有沒有刻意的設計選擇?
禁止
:Inter / Roboto / Arial / System Font、白底漸層卡片等通用模板。
維度 3
技術執行
字體階層、間距、配色對比是否整齊一致?每頁標題字體大小必須一致。
維度 4
可用性
使用者能否直覺完成核心任務?找到主要按鈕?看懂頁面在幹嘛?
案例:美術館網站
第 10 輪的飛越
第 9 輪:乾淨深色 Landing Page(符合預期)
第 10 輪:突破 — 用 CSS perspective 打造 3D 房間,黑白方格地板,藝術品掛在牆上,穿過虛擬的門走進展廳
演進不是線性的,但只要評審和實作者繼續對話,
某幾輪就會出現你想不到的飛越
章節七
六步驟 SOP — 建立你的 Rubric
1
跑 Baseline
:先讓 AI 做一輪,不給任何 Rubric,測試原始能力
2
找痛點
:親自看每一個產出,寫下「做得不好」的
具體原因
3
分類
:把痛點收斂成 2–4 個維度(如:邏輯鬆散 / 沒有個人視角 / 開頭沒吸引力)
4
寫具體案例
:每個維度要有可操作的案例,非抽象描述
❌「避免 AI 味」→ ✅「絕對不要用破折號連接短句;不要用『在這個快速變化的時代』開頭」
5
多樣化
:提供多個參考方向,避免 AI Overfitting(例:列出 11 種美學風格而非只說「博物館等級質感」)
6
執行並校正
:把 Rubric 放進 /goal Prompt,跑 3–4 輪,確認評審判斷與你的感受一致;不一致就回去修 Rubric
核心洞察
關鍵不是 Prompt Engineering,而是 Evaluation
三條線索指向同一件事
/goal 功能設計
:實作者 + 評審的協作架構
Anthropic 研究
:用 Rubric 讓評審自主打分
a16z Auto Research
:相同的 Evaluation-first 思維
Rubric 的真正意義
表面上是給 AI 用的評分標準
實際上,它是在逼你把那些
只存在腦袋裡的模糊品味
,
具體寫成文字
一旦寫成文字,AI 就能幫你守住它
重點回顧
你才是 AI 的管理者
五個核心 Takeaway
真正的自動化
= 解放注意力,不是只交出任務
Context Anxiety
是 LLM 中途停止的根本原因
/goal Prompt
需有:Goal / Verification / Constraints / Iteration Policy / Error Handling
Evaluation
比 Prompt Engineering 更重要
Rubric
= 把你腦中的模糊品味轉化為可執行的評分標準
本週練習
挑一件你最常做、最需要個人品味的任務
(寫貼文、回客戶信、做行銷圖…)
花 30 分鐘跑一遍六步驟 SOP,
讓 AI 的產出更穩定、更貼近你的預期
# 你準備好的工具
Prompt 1
: 把壞產出收斂成 Rubric
Prompt 2
: 把模糊任務改寫成
/goal 提示詞
封面
自動化
/goal 推出
Context Anxiety
Prompt 要素
模糊目標
Rubric 研究
六步驟 SOP
核心洞察
重點回顧
1 / 10