跳到主要內容
網頁設計 元伸科技 元伸科技 · · 6 分鐘閱讀

AI 抓取行為觀察:用 server log 看 GPTBot、Claude、Perplexity 怎麼爬你的網站

GPTBot、ClaudeBot、PerplexityBot 等 AI 爬蟲已經在訪問你的網站,但你看得到嗎?本文教你用 server log 分析 AI 爬蟲行為,量化 AI 對網站的關注度。

分享
實務上跟客戶聊 AI SEO 時,大家都關心『AI 到底有沒有來爬我網站?』——可惜 GA4、GSC 看不到 GPTBot、ClaudeBot 這些 AI 爬蟲,要量化它們的關注度必須回頭看 server log。我會建議從三個面向分析:(1) 訪問頻率(哪個 AI 爬最多、爬什麼頁面);(2) 抓取深度(AI 看了你網站幾層);(3) 錯誤回應(4xx/5xx 是否影響後續引用)。實作上可以用 awk/grep 直接撈 access log,或用 GoAccess 視覺化;中大型網站建議直接上 ELK Stack 做長期儀表板。元伸科技 24 年深耕網頁設計,服務 3,000+ 企業客戶,AI 爬蟲監控是我們長期維運合約的標準交付物,桃園不少 B2B 客戶就靠這份月報判斷內容策略要不要調整。

「老師,我們網站做了那麼多 AI SEO 改造,AI 到底有沒有來爬?」——這是我們跟客戶聊到 AI 搜尋時,桃園 B2B 老闆們最常追問的一句話。

老實說,GA4 看不到 GPTBot、GSC 也看不到 ClaudeBot,但這些 AI 爬蟲每天都在訪問你的網站。要量化「AI 對你網站的關注度」,必須回到最古老的工具:server log。對 客製化網頁設計 而言,這是長期維運期最關鍵的健康訊號之一。

主要 AI 爬蟲清單

爬蟲 公司 User-Agent 關鍵字
GPTBot OpenAI GPTBot
ChatGPT-User OpenAI(即時搜尋) ChatGPT-User
ClaudeBot Anthropic ClaudeBotanthropic-ai
PerplexityBot Perplexity PerplexityBot
Google-Extended Google(AI 訓練) Google-Extended
CCBot Common Crawl CCBot
Bytespider 字節跳動(豆包) Bytespider
Amazonbot Amazon(Alexa) Amazonbot

darkvisitors.com 維護完整的 AI 爬蟲清單,建議每季更新。

用 awk 分析 access log

最基本的命令:

# 列出所有 AI 爬蟲訪問
awk '/GPTBot|ClaudeBot|PerplexityBot|Google-Extended|CCBot/' access.log

# 統計每個 AI 爬蟲訪問次數
awk '/GPTBot|ClaudeBot|PerplexityBot/ {
  if (/GPTBot/) g++;
  else if (/ClaudeBot/) c++;
  else if (/PerplexityBot/) p++;
}
END { print "GPTBot:", g, "Claude:", c, "Perplexity:", p }' access.log

# AI 爬蟲訪問最多的 URL
awk '/GPTBot|ClaudeBot/ {print $7}' access.log | sort | uniq -c | sort -rn | head -20

進階:用 GoAccess 視覺化

GoAccess 是免費開源 log 分析工具:

goaccess access.log -o report.html --log-format=COMBINED \
  --addr-spoof-key=GPTBot --addr-spoof-key=ClaudeBot

產出 HTML 儀表板,含每日訪問趨勢、Top 頁面、來源 IP 分佈。

三個關鍵指標

1. 訪問頻率趨勢(每月 MoM)

正常成長的網站,AI 爬蟲訪問會逐月上升。

月份 GPTBot ClaudeBot Perplexity
第 1 個月
第 2 個月
第 3 個月 中高

突然下滑要警覺,可能:

  • AI 模型已抓夠(短期)
  • robots.txt 改錯擋掉了
  • 網站 5xx 錯誤增加

2. 抓取深度

AI 爬蟲爬到網站幾層?理想分布:

  • 第 1 層(首頁):100%
  • 第 2 層(分類、列表):60-80%
  • 第 3 層(內頁、文章):30-50%
  • 第 4 層以後:< 10%

第 3 層偏低代表內部連結不足,AI 找不到深層內容。

3. 錯誤回應比例

# AI 爬蟲遇到的 404
awk '/GPTBot|ClaudeBot/ && $9 == 404' access.log | wc -l

# AI 爬蟲遇到的 5xx
awk '/GPTBot|ClaudeBot/ && $9 ~ /^5/' access.log | wc -l

404 高表示有死連結;5xx 高表示主機不穩。AI 爬到 5xx 會降低後續訪問頻率,要立即修。

大型網站:ELK Stack 建長期儀表板

中大型網站 log 量大(每日 GB 級),用 ELK:

  • Logstash 解析 log
  • Elasticsearch 索引存儲
  • Kibana 視覺化儀表板

可建立長期趨勢、即時告警、跨多站比較。

元伸客戶實戰:監控報告範例

【AI 爬蟲月報】2026-04
GPTBot: 2,100 次(MoM +33%)
ClaudeBot: 1,450 次(MoM +32%)
Perplexity: 980 次(MoM +36%)

最熱門頁面(被 AI 爬最多):
1. /insights/ai-ready-website-building-guide(387 次)
2. /lp/ai-ready(256 次)
3. /insights/schema-markup-web-design-guide(198 次)

異常:
- /old-pricing/2024(404 共 47 次)→ 待補 301 redirect

老闆最常踩的 3 個坑

  • 只看訪問次數絕對值:應該看趨勢。新網站爬蟲少很正常,舊網站突然下滑才要警覺。
  • 看到大量爬蟲就擋:除非有付費內容或機密資料,否則擋掉等於把 AI 曝光紅利讓給競品。
  • 沒處理 4xx/5xx 累積:講白一點,AI 爬蟲遇到太多錯誤會直接降低訪問頻率,等於自己關門。

結語:看不到的東西無法管理

server log 是「老派但可靠」的工具,AI 搜尋時代它的價值反而被重新發現。我會建議每月花 30 分鐘看 AI 爬蟲報告——這比 GSC、GA4 都更早提供網站健康訊號。搭配 llms.txt 設定指南 主動引導 AI,效果會更明顯。

實務上,我們為客戶建置 AI-Ready 網站時,AI 爬蟲監控儀表板是長期合約的標準交付物——這是「看得到 AI 在乎你」的最直接證據。完整服務內容詳見 解決方案頁


元伸科技|24 年深耕網頁設計|3,000+ 企業客戶

桃園 B2B 客戶就靠這份月報判斷內容策略要不要調整。如果想討論你的網站 AI 爬蟲監控怎麼建,歡迎來電:

📞 03-366-1000 | 🌐 www.ozchamp.com | 免費諮詢 24hr 回覆

你的網站,AI 看得懂嗎?

免費檢測 25 項 AI-Ready 指標(robots.txt、Schema、llms.txt、SSR、E-E-A-T 等),10 秒知道你的網站對 ChatGPT、Perplexity、Google AI Overview 的友善程度。

相關文章

網頁設計
客製網站最常見的 5 種過度設計:哪些錢花了沒效果
網頁設計 客製化網站 網頁設計 過度設計 元伸科技 · · 8 分鐘閱讀

客製網站最常見的 5 種過度設計:哪些錢花了沒效果

從顧問實務角度反向談「客製網站不該花的錢」,拆解中小企業最常見的 5 種過度設計,告訴你為什麼花了沒效果、什麼情況才真的需要,以及怎麼分辨必要與過度。

閱讀更多
網頁設計
線框圖與原型怎麼看:視覺定稿前該確認的版面與動線重點
網頁設計 線框圖 wireframe 互動原型 元伸科技 · · 6 分鐘閱讀

線框圖與原型怎麼看:視覺定稿前該確認的版面與動線重點

拿到線框圖與互動原型卻不知道要看哪裡?本文用顧問視角拆解線框圖、視覺稿、互動原型的差別,告訴你定稿前該確認的資訊層級、動線、CTA 位置與 RWD 折疊行為。

閱讀更多
網頁設計
網頁設計改稿次數怎麼算?:搞懂修改範圍、超收費用與報價單沒寫的眉角
網頁設計 改稿次數 改稿輪次 網頁設計報價 元伸科技 · · 7 分鐘閱讀

網頁設計改稿次數怎麼算?:搞懂修改範圍、超收費用與報價單沒寫的眉角

改稿輪次怎麼算、什麼算修改什麼算新增需求、超收怎麼計價,是設計案最常吵的環節。本文用顧問角度拆解合理條款與該警惕的條款。

閱讀更多