「我網站的內容被 AI 訓練、被 ChatGPT 引用,結果使用者讀完摘要不點進來——這樣我網站豈不是白做?要不要擋掉 AI 爬蟲?」
這是 2024 年以來最常見的策略問題。答案不是「擋」或「不擋」,而是「依商業模式決定」。
主要 AI 爬蟲與用途
| 爬蟲 | 公司 | 用途 |
|---|---|---|
| GPTBot | OpenAI | ChatGPT 訓練資料 |
| ChatGPT-User | OpenAI | ChatGPT 即時搜尋 |
| ClaudeBot | Anthropic | Claude 訓練資料 |
| anthropic-ai | Anthropic | Claude 即時搜尋 |
| PerplexityBot | Perplexity | 即時搜尋與引用 |
| Google-Extended | Gemini 訓練資料(與 Googlebot 分開) | |
| CCBot | Common Crawl | 開放資料集(被多家 AI 用) |
| Bytespider | 字節跳動 | 豆包訓練資料 |
擋與不擋的利弊
不擋(全開)的好處
- AI 引用紅利:ChatGPT、Claude、Perplexity 推薦時帶來品牌曝光
- 長期 SEO 優勢:AI 搜尋普及後早期被 AI 認識的網站佔優
- 品牌權威定位:成為 AI 引用來源本身就是業界認可
- 延遲轉換:AI 引用 3-12 個月後品牌詞流量上升
擋掉的好處
- 保護付費內容:避免訂閱制、會員專屬內容被免費摘要
- 獨家數據優勢:研究報告、產業數據、獨家分析不外流
- 避免爬蟲負擔:高流量網站擋掉可省頻寬與伺服器資源
- 法律風險控制:部分產業(醫療、金融)有合規考量
三大產業的建議策略
內容變現品牌(媒體、教育、研究)
建議:分區擋掉
公開區塊(首頁、文章標題、摘要)開放,付費區塊(完整文章、白皮書、數據庫)擋掉:
# 擋付費區塊
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Disallow: /premium/
Disallow: /members/
Disallow: /reports/
User-agent: *
Allow: /
B2B 工業/服務業
建議:全開
對 B2B 而言,「被 AI 推薦」是最珍貴的客戶獲取管道。擋掉 = 把潛在客戶讓給競爭對手。除非有合規限制,否則建議全開(B2B 官網的 AI-Ready 規劃可參考企業形象網站方案):
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
電商
建議:全開
商品資訊本來就要被搜尋找到,AI 引用更是免費行銷管道。擋 AI 爬蟲對電商沒有任何好處:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /orders/
robots.txt 完整範例
範例 1:全開(推薦多數網站)
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/
Sitemap: https://yoursite.com/sitemap.xml
範例 2:分區擋(內容變現網站)
# AI 訓練爬蟲:擋付費區塊
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/
User-agent: anthropic-ai
Disallow: /premium/
Disallow: /members/
User-agent: PerplexityBot
Disallow: /premium/
User-agent: Google-Extended
Disallow: /premium/
# 通用規則
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Sitemap: https://yoursite.com/sitemap.xml
範例 3:全擋(極少情境)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
# Googlebot 仍允許(不影響傳統 SEO)
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /admin/
警告:全擋會讓你完全失去 AI 搜尋曝光機會,只有極少情境(如付費內容站、政府機密、醫療隱私)才建議。
設定後驗證
- 直接訪問:
curl https://yoursite.com/robots.txt - Google Robots.txt Tester(在 GSC 工具中)
- 看 server log:設定後 1-2 週看 GPTBot 訪問是否減少(如果擋了的話);爬蟲分析方法詳見從 server log 觀察 AI 爬蟲行為
不要犯的 3 個錯誤
- ❌ 擋了 Googlebot:會直接毀掉 Google 排名(GPTBot ≠ Googlebot)
- ❌ 路徑寫錯:
Disallow: /premium(沒結尾 /)會擋掉/premium-x等其他路徑 - ❌ 只在 robots.txt 擋但內容公開可訪問:守規矩爬蟲會遵守,不守規矩爬蟲(如部分中國爬蟲)仍會抓——付費內容務必加上後端驗證
元伸建議:從全開開始
除非有明確商業理由要擋,從全開開始 是最低風險的選擇。AI 引用紅利是早期跟進者的優勢,擋掉等於放棄這個機會。如果你已經全開但仍未被引用,建議檢視AI 不引用你的 7 個常見原因逐項排雷。
未來如有需要再分區擋掉特定區塊(成本:5 分鐘改 robots.txt),但錯失早期紅利的成本可能是好幾年的市占。
結語:商業決策大於技術決策
robots.txt 該怎麼寫,不是工程師問題,是老闆問題——背後是「我的網站想用什麼方式被找到」的商業策略。
元伸科技在規劃客製化網頁設計時協助客戶決策,會問三個問題:(1) 你網站的核心內容是公開行銷還是付費變現?(2) 你的競爭對手有擋嗎?(3) 你能接受 3-5 年後在 AI 搜尋中消失的可能嗎?答完這三題,robots.txt 的策略就清楚了。