Perplexity AI が Firewall を回避して Web サイトをクロール:Cloudflare が警告

Cloudflare Accuses Perplexity AI For Evading Firewalls and Crawling Websites by Changing User Agent

2025/08/05 CyberSecurityNews — 標準的な Firewall を回避するステルス型のクロール技術を採用しているとして、高度な LLM を搭載する新興の QA エンジン Perplexity AI が注目を集めている。スタート時の Perplexity クローラーは透明性を重視しており、PerplexityBot/1.0 といったユーザー・エージェントを用いて自らを識別し、robots.txt の指示や Web Application Firewall (WAF) のルールを遵守していた。しかし、2025年8月初旬に研究者たちが確認したのは、ブロックを受けた Perplexity がクロール中に自身の識別情報を改変し、一般的なブラウザのユーザー・エージェントおよび未公開の IP 範囲を用いて、アクセスが制限されるコンテンツへと接続している現実である。

Cloudflare のアナリストたちが指摘するのは、この動作の変化はミス・コンフィグではなく、明確な回避戦術であると言う点だ。具体的に言うと、Perplexity のシステムが、ネットワーク・レベルでブロックされると、ユーザー・エージェント文字列を変更して macOS 上の Chrome を偽装していたようだ。そして、以下のようなリクエストを送信していた:

GET /secret-page.html HTTP/1.1  
Host: testexample.com  
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36  

これらのステルス・リクエストは、公には Perplexity と関連付けのない複数の ASN (Autonomous System Numbers)/IP ブロックをローテーションさせることで、一日あたり数百万件にもおよぶ継続的なアクセスを可能にしていた。

この行為による影響は深刻である。robots.txt ファイルにより Perplexity のアクセスを明示的に拒否し、カスタム WAF ルールを実装している Web サイト運営者たちは、依然として機密ページが不正スクレイピングされていると報告している。

Attack flow (Source – Cloudflare)


このような信頼の濫用は、インターネットの根本的原則を損なうものであり、その結果として、AI トレーニング・データの出所に関する法的/政策的な課題を提起する。

正当な人間によるトラフィックと、難読化された AI クローラーの識別が困難になる中で、コンテンツ所有者によるプライバシー規制や著作権保護への対応が、これまで以上に複雑化している。

さらに、Perplexity がブロックされた際に採用するフォールバック戦略 (他のデータソースへの依存) は、その適応性を持続している。また、ダイレクトなクロールが失敗した場合であっても、システムは代替の Web サイトに基づく回答を生成するが、オリジナルのソースと比較すると、情報の特異性は低下する傾向にある。

このようなマルチソースの集約手法は、AI の回復力を強調すると同時に、情報の出所と正確性に対する懸念を拡大させる。

検出回避のメカニズム

Perplexity の持続性を支える重要な要素は、動的なユーザー・エージェントのローテーションと迅速な ASN ホッピングの組み合わせである。つまり、ユーザー・エージェントおよび IP プレフィックスをプログラムで循環させることで、クローラーはシグネチャ・ベースの Firewall ルールを巧妙に回避している。

Cloudflare の研究者たちは、こうしたステルス・クローラーが ID を変更した後も、クッキーやリファラヘッダーを維持し、セッションの一貫性を保つことで、それぞれの人間ユーザーに成りすましていると分析している。

この問題を緩和するためには、静的なシグネチャ・マッチングではなく、高速なリクエスト頻度/リクエスト間タイミングの一様性/クッキー交換の繰り返しといった、異常なパターンを検知する行動分析が必要となる。

この種の、進化し続ける脅威に対抗するためには、ボット管理におけるヒューリスティックの継続的な改良とともに、Web Bot Auth などの新たな標準規格の採用が不可欠である。