跳到主要內容
網頁設計 元伸科技 元伸科技 · · 5 分鐘閱讀

AI 抓取行為觀察:用 server log 看 GPTBot、Claude、Perplexity 怎麼爬你的網站

GPTBot、ClaudeBot、PerplexityBot 等 AI 爬蟲已經在訪問你的網站,但你看得到嗎?本文教你用 server log 分析 AI 爬蟲行為,量化 AI 對網站的關注度。

分享
AI 爬蟲(GPTBot、ClaudeBot、PerplexityBot、Google-Extended、CCBot)已經在訪問你的網站,但 GA4、GSC 看不到它們的活動。要量化 AI 對網站的關注度,必須直接看 server log。可從三個面向分析:(1) **訪問頻率**——哪個 AI 爬最多、爬什麼頁面;(2) **抓取深度**——AI 看了你網站幾層;(3) **錯誤回應**——AI 遇到的 404、500 是否影響後續引用。實作方式:用 awk / grep 直接分析 access log,或用 GoAccess、Awstats 視覺化工具。中大型網站可用 ELK Stack 建長期儀表板。元伸科技為客戶建置 AI 爬蟲監控儀表板,每月可量化 AI 對網站的關注變化。

GA4 看不到 GPTBot、GSC 也看不到 ClaudeBot,但這些 AI 爬蟲每天都在訪問你的網站。要量化「AI 對你網站的關注度」,必須回到最古老的工具:server log。對 客製化網頁設計 而言,這是長期維運期最關鍵的健康訊號之一。

主要 AI 爬蟲清單

爬蟲 公司 User-Agent 關鍵字
GPTBot OpenAI GPTBot
ChatGPT-User OpenAI(即時搜尋) ChatGPT-User
ClaudeBot Anthropic ClaudeBotanthropic-ai
PerplexityBot Perplexity PerplexityBot
Google-Extended Google(AI 訓練) Google-Extended
CCBot Common Crawl CCBot
Bytespider 字節跳動(豆包) Bytespider
Amazonbot Amazon(Alexa) Amazonbot

darkvisitors.com 維護完整的 AI 爬蟲清單,建議每季更新。

用 awk 分析 access log

最基本的命令:

# 列出所有 AI 爬蟲訪問
awk '/GPTBot|ClaudeBot|PerplexityBot|Google-Extended|CCBot/' access.log

# 統計每個 AI 爬蟲訪問次數
awk '/GPTBot|ClaudeBot|PerplexityBot/ {
  if (/GPTBot/) g++;
  else if (/ClaudeBot/) c++;
  else if (/PerplexityBot/) p++;
}
END { print "GPTBot:", g, "Claude:", c, "Perplexity:", p }' access.log

# AI 爬蟲訪問最多的 URL
awk '/GPTBot|ClaudeBot/ {print $7}' access.log | sort | uniq -c | sort -rn | head -20

進階:用 GoAccess 視覺化

GoAccess 是免費開源 log 分析工具:

goaccess access.log -o report.html --log-format=COMBINED \
  --addr-spoof-key=GPTBot --addr-spoof-key=ClaudeBot

產出 HTML 儀表板,含每日訪問趨勢、Top 頁面、來源 IP 分佈。

三個關鍵指標

1. 訪問頻率趨勢(每月 MoM)

正常成長的網站,AI 爬蟲訪問會逐月上升。

月份 GPTBot ClaudeBot Perplexity
2026-02 1,200 800 450
2026-03 1,580 1,100 720
2026-04 2,100 1,450 980

突然下滑要警覺,可能:

  • AI 模型已抓夠(短期)
  • robots.txt 改錯擋掉了
  • 網站 5xx 錯誤增加

2. 抓取深度

AI 爬蟲爬到網站幾層?理想分布:

  • 第 1 層(首頁):100%
  • 第 2 層(分類、列表):60-80%
  • 第 3 層(內頁、文章):30-50%
  • 第 4 層以後:< 10%

第 3 層偏低代表內部連結不足,AI 找不到深層內容。

3. 錯誤回應比例

# AI 爬蟲遇到的 404
awk '/GPTBot|ClaudeBot/ && $9 == 404' access.log | wc -l

# AI 爬蟲遇到的 5xx
awk '/GPTBot|ClaudeBot/ && $9 ~ /^5/' access.log | wc -l

404 高表示有死連結;5xx 高表示主機不穩。AI 爬到 5xx 會降低後續訪問頻率,要立即修。

大型網站:ELK Stack 建長期儀表板

中大型網站 log 量大(每日 GB 級),用 ELK:

  • Logstash 解析 log
  • Elasticsearch 索引存儲
  • Kibana 視覺化儀表板

可建立長期趨勢、即時告警、跨多站比較。

元伸客戶實戰:監控報告範例

【AI 爬蟲月報】2026-04
GPTBot: 2,100 次(MoM +33%)
ClaudeBot: 1,450 次(MoM +32%)
Perplexity: 980 次(MoM +36%)

最熱門頁面(被 AI 爬最多):
1. /insights/ai-ready-website-building-guide(387 次)
2. /lp/ai-ready(256 次)
3. /insights/schema-markup-web-design-guide(198 次)

異常:
- /old-pricing/2024(404 共 47 次)→ 待補 301 redirect

不要犯的 3 個錯誤

  • ❌ 只看訪問次數絕對值(要看趨勢)
  • ❌ 看到大量爬蟲就擋(會失去 AI 曝光機會)
  • ❌ 沒處理 4xx/5xx 累積(會被 AI 降權)

結語:看不到的東西無法管理

server log 是「老派但可靠」的工具,AI 搜尋時代它的價值反而被重新發現。每月花 30 分鐘看 AI 爬蟲報告,能比 GSC、GA4 提供更早的網站健康訊號。搭配 llms.txt 設定指南 主動引導 AI,效果會更明顯。

元伸科技為客戶建置 AI-Ready 網站時,AI 爬蟲監控儀表板是長期合約的標準交付物——這是「看得到 AI 在乎你」的最直接證據。完整服務內容詳見 解決方案頁

你的網站,AI 看得懂嗎?

免費檢測 25 項 AI-Ready 指標(robots.txt、Schema、llms.txt、SSR、E-E-A-T 等),10 秒知道你的網站對 ChatGPT、Perplexity、Google AI Overview 的友善程度。

相關文章

網頁設計
AI 搜尋的長尾關鍵字策略:從關鍵字到「真實提問」
網頁設計 長尾關鍵字 AI 搜尋 提問策略 元伸科技 · · 4 分鐘閱讀

AI 搜尋的長尾關鍵字策略:從關鍵字到「真實提問」

傳統 SEO 抓「關鍵字」,AI 搜尋抓「真實提問」。本文教你 4 步驟把現有關鍵字策略升級為 AI 友善的提問策略,從清單蒐集到內容對應。

閱讀更多
網頁設計
AI 引用率量化追蹤:怎麼測量網站在 AI 搜尋中的能見度
網頁設計 AI 引用率 AI 能見度 AISO 追蹤 元伸科技 · · 7 分鐘閱讀

AI 引用率量化追蹤:怎麼測量網站在 AI 搜尋中的能見度

做了 AI-Ready 升級後,怎麼知道有沒有效果?本文整理 5 個可實際操作的 AI 引用率測量方法,從免費手動檢測到付費工具,搭配每月追蹤模板。

閱讀更多
網頁設計
網頁圖片最佳化完全指南:兼顧視覺品質與載入速度
網頁設計 圖片最佳化 網頁圖片壓縮 WebP格式 元伸科技 · · 10 分鐘閱讀

網頁圖片最佳化完全指南:兼顧視覺品質與載入速度

從圖片格式選擇、壓縮策略、響應式圖片到延遲載入,完整解析網頁圖片最佳化的實務技巧,讓網站在維持高品質視覺的同時大幅提升載入速度。

閱讀更多