GA4 看不到 GPTBot、GSC 也看不到 ClaudeBot,但這些 AI 爬蟲每天都在訪問你的網站。要量化「AI 對你網站的關注度」,必須回到最古老的工具:server log。對 客製化網頁設計 而言,這是長期維運期最關鍵的健康訊號之一。
主要 AI 爬蟲清單
| 爬蟲 | 公司 | User-Agent 關鍵字 |
|---|---|---|
| GPTBot | OpenAI | GPTBot |
| ChatGPT-User | OpenAI(即時搜尋) | ChatGPT-User |
| ClaudeBot | Anthropic | ClaudeBot 或 anthropic-ai |
| PerplexityBot | Perplexity | PerplexityBot |
| Google-Extended | Google(AI 訓練) | Google-Extended |
| CCBot | Common Crawl | CCBot |
| Bytespider | 字節跳動(豆包) | Bytespider |
| Amazonbot | Amazon(Alexa) | Amazonbot |
darkvisitors.com 維護完整的 AI 爬蟲清單,建議每季更新。
用 awk 分析 access log
最基本的命令:
# 列出所有 AI 爬蟲訪問
awk '/GPTBot|ClaudeBot|PerplexityBot|Google-Extended|CCBot/' access.log
# 統計每個 AI 爬蟲訪問次數
awk '/GPTBot|ClaudeBot|PerplexityBot/ {
if (/GPTBot/) g++;
else if (/ClaudeBot/) c++;
else if (/PerplexityBot/) p++;
}
END { print "GPTBot:", g, "Claude:", c, "Perplexity:", p }' access.log
# AI 爬蟲訪問最多的 URL
awk '/GPTBot|ClaudeBot/ {print $7}' access.log | sort | uniq -c | sort -rn | head -20
進階:用 GoAccess 視覺化
GoAccess 是免費開源 log 分析工具:
goaccess access.log -o report.html --log-format=COMBINED \
--addr-spoof-key=GPTBot --addr-spoof-key=ClaudeBot
產出 HTML 儀表板,含每日訪問趨勢、Top 頁面、來源 IP 分佈。
三個關鍵指標
1. 訪問頻率趨勢(每月 MoM)
正常成長的網站,AI 爬蟲訪問會逐月上升。
| 月份 | GPTBot | ClaudeBot | Perplexity |
|---|---|---|---|
| 2026-02 | 1,200 | 800 | 450 |
| 2026-03 | 1,580 | 1,100 | 720 |
| 2026-04 | 2,100 | 1,450 | 980 |
突然下滑要警覺,可能:
- AI 模型已抓夠(短期)
- robots.txt 改錯擋掉了
- 網站 5xx 錯誤增加
2. 抓取深度
AI 爬蟲爬到網站幾層?理想分布:
- 第 1 層(首頁):100%
- 第 2 層(分類、列表):60-80%
- 第 3 層(內頁、文章):30-50%
- 第 4 層以後:< 10%
第 3 層偏低代表內部連結不足,AI 找不到深層內容。
3. 錯誤回應比例
# AI 爬蟲遇到的 404
awk '/GPTBot|ClaudeBot/ && $9 == 404' access.log | wc -l
# AI 爬蟲遇到的 5xx
awk '/GPTBot|ClaudeBot/ && $9 ~ /^5/' access.log | wc -l
404 高表示有死連結;5xx 高表示主機不穩。AI 爬到 5xx 會降低後續訪問頻率,要立即修。
大型網站:ELK Stack 建長期儀表板
中大型網站 log 量大(每日 GB 級),用 ELK:
- Logstash 解析 log
- Elasticsearch 索引存儲
- Kibana 視覺化儀表板
可建立長期趨勢、即時告警、跨多站比較。
元伸客戶實戰:監控報告範例
【AI 爬蟲月報】2026-04
GPTBot: 2,100 次(MoM +33%)
ClaudeBot: 1,450 次(MoM +32%)
Perplexity: 980 次(MoM +36%)
最熱門頁面(被 AI 爬最多):
1. /insights/ai-ready-website-building-guide(387 次)
2. /lp/ai-ready(256 次)
3. /insights/schema-markup-web-design-guide(198 次)
異常:
- /old-pricing/2024(404 共 47 次)→ 待補 301 redirect
不要犯的 3 個錯誤
- ❌ 只看訪問次數絕對值(要看趨勢)
- ❌ 看到大量爬蟲就擋(會失去 AI 曝光機會)
- ❌ 沒處理 4xx/5xx 累積(會被 AI 降權)
結語:看不到的東西無法管理
server log 是「老派但可靠」的工具,AI 搜尋時代它的價值反而被重新發現。每月花 30 分鐘看 AI 爬蟲報告,能比 GSC、GA4 提供更早的網站健康訊號。搭配 llms.txt 設定指南 主動引導 AI,效果會更明顯。
元伸科技為客戶建置 AI-Ready 網站時,AI 爬蟲監控儀表板是長期合約的標準交付物——這是「看得到 AI 在乎你」的最直接證據。完整服務內容詳見 解決方案頁。