跳到主要內容
網頁設計 元伸科技 元伸科技 · · 6 分鐘閱讀

網站 robots.txt 該不該擋 GPTBot / ClaudeBot?利弊分析

越來越多 AI 爬蟲訪問你的網站抓內容做訓練,到底該允許還是擋掉?本文整理擋與不擋的利弊、不同產業的建議策略,與 robots.txt 設定範例。

分享
GPTBot、ClaudeBot 等 AI 爬蟲訪問你的網站時,到底該允許還是擋掉?這是商業決策不是技術決策。允許的好處:(1) **AI 引用紅利**——被 ChatGPT、Claude、Perplexity 推薦帶來品牌曝光;(2) **長期 SEO 優勢**——AI 搜尋普及後早期跟進者佔優;擋掉的好處:(1) **保護付費內容**——避免知識變現的內容被 AI 免費摘要;(2) **競爭優勢**——獨家數據不外流。建議策略:(1) **內容變現品牌**(媒體、教育、研究)建議擋付費內容、開放公開內容;(2) **B2B 工業/服務業**建議全開——曝光價值大於擔憂;(3) **電商**建議全開——商品資訊本來就要被找到。本文附 robots.txt 範例,可立即套用。

「我網站的內容被 AI 訓練、被 ChatGPT 引用,結果使用者讀完摘要不點進來——這樣我網站豈不是白做?要不要擋掉 AI 爬蟲?」

這是 2024 年以來最常見的策略問題。答案不是「擋」或「不擋」,而是「依商業模式決定」

主要 AI 爬蟲與用途

爬蟲 公司 用途
GPTBot OpenAI ChatGPT 訓練資料
ChatGPT-User OpenAI ChatGPT 即時搜尋
ClaudeBot Anthropic Claude 訓練資料
anthropic-ai Anthropic Claude 即時搜尋
PerplexityBot Perplexity 即時搜尋與引用
Google-Extended Google Gemini 訓練資料(與 Googlebot 分開)
CCBot Common Crawl 開放資料集(被多家 AI 用)
Bytespider 字節跳動 豆包訓練資料

擋與不擋的利弊

不擋(全開)的好處

  1. AI 引用紅利:ChatGPT、Claude、Perplexity 推薦時帶來品牌曝光
  2. 長期 SEO 優勢:AI 搜尋普及後早期被 AI 認識的網站佔優
  3. 品牌權威定位:成為 AI 引用來源本身就是業界認可
  4. 延遲轉換:AI 引用 3-12 個月後品牌詞流量上升

擋掉的好處

  1. 保護付費內容:避免訂閱制、會員專屬內容被免費摘要
  2. 獨家數據優勢:研究報告、產業數據、獨家分析不外流
  3. 避免爬蟲負擔:高流量網站擋掉可省頻寬與伺服器資源
  4. 法律風險控制:部分產業(醫療、金融)有合規考量

三大產業的建議策略

內容變現品牌(媒體、教育、研究)

建議:分區擋掉

公開區塊(首頁、文章標題、摘要)開放,付費區塊(完整文章、白皮書、數據庫)擋掉:

# 擋付費區塊
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Disallow: /premium/
Disallow: /members/
Disallow: /reports/

User-agent: *
Allow: /

B2B 工業/服務業

建議:全開

對 B2B 而言,「被 AI 推薦」是最珍貴的客戶獲取管道。擋掉 = 把潛在客戶讓給競爭對手。除非有合規限制,否則建議全開(B2B 官網的 AI-Ready 規劃可參考企業形象網站方案):

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

電商

建議:全開

商品資訊本來就要被搜尋找到,AI 引用更是免費行銷管道。擋 AI 爬蟲對電商沒有任何好處:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /orders/

robots.txt 完整範例

範例 1:全開(推薦多數網站)

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/

Sitemap: https://yoursite.com/sitemap.xml

範例 2:分區擋(內容變現網站)

# AI 訓練爬蟲:擋付費區塊
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/

User-agent: anthropic-ai
Disallow: /premium/
Disallow: /members/

User-agent: PerplexityBot
Disallow: /premium/

User-agent: Google-Extended
Disallow: /premium/

# 通用規則
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

範例 3:全擋(極少情境)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Googlebot 仍允許(不影響傳統 SEO)
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /admin/

警告:全擋會讓你完全失去 AI 搜尋曝光機會,只有極少情境(如付費內容站、政府機密、醫療隱私)才建議

設定後驗證

  1. 直接訪問curl https://yoursite.com/robots.txt
  2. Google Robots.txt Tester(在 GSC 工具中)
  3. 看 server log:設定後 1-2 週看 GPTBot 訪問是否減少(如果擋了的話);爬蟲分析方法詳見從 server log 觀察 AI 爬蟲行為

不要犯的 3 個錯誤

  • 擋了 Googlebot:會直接毀掉 Google 排名(GPTBot ≠ Googlebot)
  • 路徑寫錯Disallow: /premium(沒結尾 /)會擋掉 /premium-x 等其他路徑
  • 只在 robots.txt 擋但內容公開可訪問:守規矩爬蟲會遵守,不守規矩爬蟲(如部分中國爬蟲)仍會抓——付費內容務必加上後端驗證

元伸建議:從全開開始

除非有明確商業理由要擋,從全開開始 是最低風險的選擇。AI 引用紅利是早期跟進者的優勢,擋掉等於放棄這個機會。如果你已經全開但仍未被引用,建議檢視AI 不引用你的 7 個常見原因逐項排雷。

未來如有需要再分區擋掉特定區塊(成本:5 分鐘改 robots.txt),但錯失早期紅利的成本可能是好幾年的市占

結語:商業決策大於技術決策

robots.txt 該怎麼寫,不是工程師問題,是老闆問題——背後是「我的網站想用什麼方式被找到」的商業策略。

元伸科技在規劃客製化網頁設計時協助客戶決策,會問三個問題:(1) 你網站的核心內容是公開行銷還是付費變現?(2) 你的競爭對手有擋嗎?(3) 你能接受 3-5 年後在 AI 搜尋中消失的可能嗎?答完這三題,robots.txt 的策略就清楚了

你的網站,AI 看得懂嗎?

免費檢測 25 項 AI-Ready 指標(robots.txt、Schema、llms.txt、SSR、E-E-A-T 等),10 秒知道你的網站對 ChatGPT、Perplexity、Google AI Overview 的友善程度。

相關文章

網頁設計
JavaScript 渲染與 AI 爬蟲:SSR / SSG / CSR 怎麼選
網頁設計 SSR SSG CSR 元伸科技 · · 5 分鐘閱讀

JavaScript 渲染與 AI 爬蟲:SSR / SSG / CSR 怎麼選

同樣是 React、Vue 做的網站,SSR、SSG、CSR 對 AI 爬蟲的友善度天差地遠。本文解析三種渲染方式的差異,與選擇判斷的實用指南。

閱讀更多
網頁設計
Core Web Vitals × AI 引用:速度為什麼影響你被 AI 選中
網頁設計 Core Web Vitals 網站速度 LCP 元伸科技 · · 4 分鐘閱讀

Core Web Vitals × AI 引用:速度為什麼影響你被 AI 選中

網站速度不只影響使用者體驗,更直接影響 AI 是否引用你。本文解析 Core Web Vitals 三大指標如何決定 AI 爬蟲的爬取深度與引用優先級。

閱讀更多
網頁設計
表單轉換率優化:讓更多訪客填完聯絡表單的 9 個技巧
網頁設計 表單優化 轉換率優化 聯絡表單設計 元伸科技 · · 6 分鐘閱讀

表單轉換率優化:讓更多訪客填完聯絡表單的 9 個技巧

從欄位數量精簡、視覺引導、錯誤提示到多步驟表單,提供 9 個經過驗證的表單優化技巧,幫助企業網站大幅提升聯絡表單的完成率與轉換率。

閱讀更多