AI 爬蟲擋掉真的有效嗎？

對守規矩的爬蟲（GPTBot、ClaudeBot、PerplexityBot、Google-Extended）有效——這些公司明確尊重 robots.txt。對不守規矩的爬蟲（部分中國爬蟲、無名小爬蟲）無效，需額外用 IP 黑名單、Cloudflare Bot Management 才能擋。

擋掉 AI 爬蟲會影響 SEO 嗎？

看擋哪個。擋 GPTBot、ClaudeBot 不影響 Google SEO（這些是 AI 訓練爬蟲，不是搜尋爬蟲）。擋 Google-Extended 也不影響——它是 Google 的 AI 訓練爬蟲，獨立於 Googlebot。但**不要擋 Googlebot**，那會直接影響 Google 排名。

我的競爭對手都沒擋，我擋了會吃虧嗎？

短期可能。AI 訓練資料目前還在累積階段，越早讓 AI 認識你的網站，未來引用機率越高。如果競品全開但你擋掉，3-5 年後 AI 推薦時可能只認競品。建議**除非有強烈商業理由（付費內容、機密數據），否則優先全開**。

robots.txt 怎麼寫才精準？

範例：`User-agent: GPTBot` `Disallow: /paid/` `Disallow: /members/` 「只擋付費和會員區塊，公開內容仍開放」。要對多個爬蟲分別設定就重複多組規則。最後一定要有 `User-agent: *` 通用規則作為 fallback。

已經被 AI 抓走的內容能讓他們刪掉嗎？

OpenAI、Anthropic 都有提供「移除請求」表單，但實務上很難確認他們真的刪了。**最務實的做法是：未來再加 robots.txt 擋，已經被抓的就接受**。這也是為什麼建議『現在就決策、現在就設定』——晚一天，內容就多一天的訓練機率。

網站 robots.txt 該不該擋 GPTBot / ClaudeBot？利弊分析

GPTBot、ClaudeBot 等 AI 爬蟲訪問你的網站時，到底該允許還是擋掉？這是商業決策不是技術決策。允許的好處：(1) **AI 引用紅利**——被 ChatGPT、Claude、Perplexity 推薦帶來品牌曝光；(2) **長期 SEO 優勢**——AI 搜尋普及後早期跟進者佔優；擋掉的好處：(1) **保護付費內容**——避免知識變現的內容被 AI 免費摘要；(2) **競爭優勢**——獨家數據不外流。建議策略：(1) **內容變現品牌**（媒體、教育、研究）建議擋付費內容、開放公開內容；(2) **B2B 工業／服務業**建議全開——曝光價值大於擔憂；(3) **電商**建議全開——商品資訊本來就要被找到。本文附 robots.txt 範例，可立即套用。

「我網站的內容被 AI 訓練、被 ChatGPT 引用，結果使用者讀完摘要不點進來——這樣我網站豈不是白做？要不要擋掉 AI 爬蟲？」

這是 2024 年以來最常見的策略問題。答案不是「擋」或「不擋」，而是「依商業模式決定」。

主要 AI 爬蟲與用途

爬蟲	公司	用途
GPTBot	OpenAI	ChatGPT 訓練資料
ChatGPT-User	OpenAI	ChatGPT 即時搜尋
ClaudeBot	Anthropic	Claude 訓練資料
anthropic-ai	Anthropic	Claude 即時搜尋
PerplexityBot	Perplexity	即時搜尋與引用
Google-Extended	Google	Gemini 訓練資料（與 Googlebot 分開）
CCBot	Common Crawl	開放資料集（被多家 AI 用）
Bytespider	字節跳動	豆包訓練資料

擋與不擋的利弊

不擋（全開）的好處

AI 引用紅利：ChatGPT、Claude、Perplexity 推薦時帶來品牌曝光
長期 SEO 優勢：AI 搜尋普及後早期被 AI 認識的網站佔優
品牌權威定位：成為 AI 引用來源本身就是業界認可
延遲轉換：AI 引用 3-12 個月後品牌詞流量上升

擋掉的好處

保護付費內容：避免訂閱制、會員專屬內容被免費摘要
獨家數據優勢：研究報告、產業數據、獨家分析不外流
避免爬蟲負擔：高流量網站擋掉可省頻寬與伺服器資源
法律風險控制：部分產業（醫療、金融）有合規考量

三大產業的建議策略

內容變現品牌（媒體、教育、研究）

建議：分區擋掉

公開區塊（首頁、文章標題、摘要）開放，付費區塊（完整文章、白皮書、數據庫）擋掉：

# 擋付費區塊
User-agent: GPTBot
User-agent: ClaudeBot
User-agent: PerplexityBot
User-agent: Google-Extended
Disallow: /premium/
Disallow: /members/
Disallow: /reports/

User-agent: *
Allow: /

B2B 工業／服務業

建議：全開

對 B2B 而言，「被 AI 推薦」是最珍貴的客戶獲取管道。擋掉 = 把潛在客戶讓給競爭對手。除非有合規限制，否則建議全開（B2B 官網的 AI-Ready 規劃可參考企業形象網站方案）：

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

電商

建議：全開

商品資訊本來就要被搜尋找到，AI 引用更是免費行銷管道。擋 AI 爬蟲對電商沒有任何好處：

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /orders/

robots.txt 完整範例

範例 1：全開（推薦多數網站）

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /private/

Sitemap: https://yoursite.com/sitemap.xml

範例 2：分區擋（內容變現網站）

# AI 訓練爬蟲：擋付費區塊
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /members/

User-agent: anthropic-ai
Disallow: /premium/
Disallow: /members/

User-agent: PerplexityBot
Disallow: /premium/

User-agent: Google-Extended
Disallow: /premium/

# 通用規則
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

範例 3：全擋（極少情境）

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

# Googlebot 仍允許（不影響傳統 SEO）
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /admin/

警告：全擋會讓你完全失去 AI 搜尋曝光機會，只有極少情境（如付費內容站、政府機密、醫療隱私）才建議。

設定後驗證

直接訪問：curl https://yoursite.com/robots.txt
Google Robots.txt Tester（在 GSC 工具中）
看 server log：設定後 1-2 週看 GPTBot 訪問是否減少（如果擋了的話）；爬蟲分析方法詳見從 server log 觀察 AI 爬蟲行為

不要犯的 3 個錯誤

❌ 擋了 Googlebot：會直接毀掉 Google 排名（GPTBot ≠ Googlebot）
❌ 路徑寫錯：Disallow: /premium（沒結尾 /）會擋掉 /premium-x 等其他路徑
❌ 只在 robots.txt 擋但內容公開可訪問：守規矩爬蟲會遵守，不守規矩爬蟲（如部分中國爬蟲）仍會抓——付費內容務必加上後端驗證

元伸建議：從全開開始

除非有明確商業理由要擋，從全開開始 是最低風險的選擇。AI 引用紅利是早期跟進者的優勢，擋掉等於放棄這個機會。如果你已經全開但仍未被引用，建議檢視AI 不引用你的 7 個常見原因逐項排雷。

未來如有需要再分區擋掉特定區塊（成本：5 分鐘改 robots.txt），但錯失早期紅利的成本可能是好幾年的市占。

結語：商業決策大於技術決策

robots.txt 該怎麼寫，不是工程師問題，是老闆問題——背後是「我的網站想用什麼方式被找到」的商業策略。

元伸科技在規劃客製化網頁設計時協助客戶決策，會問三個問題：(1) 你網站的核心內容是公開行銷還是付費變現？(2) 你的競爭對手有擋嗎？(3) 你能接受 3-5 年後在 AI 搜尋中消失的可能嗎？答完這三題，robots.txt 的策略就清楚了。