AI Crawlers Reshape The Internet With Over 30% of Global Web Traffic
2025/07/02 CyberSecurityNews — 世界のインターネット・インフラ上において、人工知能クローラーが支配的な勢力として台頭しはじめ、デジタル環境は根本的な変革を遂げている。最近の分析によると、現在の世界全体の Web トラフィックに占める、自動化されたボットの割合は約 30%を占めるに至り、従来からの人間主導のインターネット利用パターンからの、大きな転換を示しているという。この劇的な進化は、単なる技術的な変革に留まらず、デジタル・ネットワーク内における情報流通の構造を、全面的に再構築するものである。従来の検索インデックス作成メカニズムに対して、AI 搭載クローラーが取って代わるケースが急速に増加している。

AI クローラーの急増は、LLM (large language model) の開発/デプロイメントが爆発的に拡大しているという事実に起因している。その背景には、人工知能システムのトレーニングと改良に、膨大な量の Web データを必要とする、ユーザー企業の存在がある。
従来の Web クローラーは、検索エンジンのインデックス作成を主目的としていたが、AI 駆動型ボットは、コンテンツの分析/モデルのトレーニング/リアルタイムの情報検索などの、複数の目的で活用されている。この変革の規模は、特定のクローラーのパフォーマンス指標を調査することで明らかになる。一部の AI ボットは、この1年間で 300% 以上の成長率を記録しているという。
この傾向を特定したのは、グローバルなネットワーク・インフラ全体の Web トラフィック・パターンを包括的に監視する、Cloudflare のアナリストたちである。彼らの調査手法は、HTTP リクエストに含まれる User-Agent 文字列を解析し、既知の AI クローラー・シグネチャと照合するものであり、その結果として、進化するボット・エコシステムに対する可視性をもたらしている。
.webp)
この Cloudflare による分析は、30 種類以上の AI クローラー/検索クローラーを対象とするものであり、それにより明らかにされたのは、市場支配力およびクロール行動のパターンにおける劇的な変化である。このことは、インターネット・インフラの利用状況におけるより広範な変動を示唆するものである。
このデータが明らかにするのは、クローラー間の階層構造が顕著に再編され始めていることだ。OpenAI の GPTBot は、2024年5月〜2025年5月の間に、AI クローラー・トラフィックの市場シェアを、僅か 5% から 30% へと急拡大させた。
これは、生のリクエスト総量が 305% も増加したことを意味しており、現代の言語モデル・トレーニング運用における、前例のないデータ需要を裏付けている。その一方で、Meta の ExternalAgent は、過去の分析には登場していなかった新規参入者でありながら、市場シェアの 19% を獲得するまでの急成長を遂げた。
この急成長に対して、大きな代償を支払ったのは、ByteDance の Bytespider のような既存プレイヤーたちである。Bytespider の市場シェアは、42% から僅か 7% にまで激減し、クロール活動については 85% の減少を記録した。
技術インフラと検出メカニズム
AI クローラーの動作を支える技術アーキテクチャが示すのは、コンテンツの取得/処理において、従来の検索ボットとは異なる高度な手法である。
これらのクローラーは、Web コンテンツから意味情報を抽出するための高度な解析アルゴリズムを実装しており、多くのケースにおいて、標準的な “robots.txt” による制限を、さまざまな技術手法で回避している。
それらのクローラーの行動パターンを詳細に分析した結果として判明したのは、複数の IP アドレスの利用や、リクエスト間隔を変化させる分散型リクエスト戦略の多用により、検出やレート制限のメカニズムを回避するという事実である。
AI クローラーのアクセス制御を試みる Web サイト管理者は、実装/適用のステップにおいて、大きな困難に直面している。
“robots.txt” ファイルは、依然としてクローラー管理の主要手段であるが、調査対象となったドメインのうち、AI ボットに対して明確なディレクティブを実装しているものは、僅か 14% に過ぎなかった。
さらに、多くの AI クローラーは、”robots.txt” に関するコンプライアンス・ポリシーを曖昧な状態にしながら稼働しており、従来の方法に依存する Web サイト所有者では、制御が困難となる施行ギャップを生んでいる。つまり、既存のブロック手法の有効性は、依然として疑問視されていることになる。
インターネットの裏側で何が起きているのかを教えてくれる、とても興味深い内容ですね。AI クローラーが人間に代わって Web を読み取り、情報を集める存在になっているという点は、知っておきたい大きな変化です。実は、このブログも、2025年3月から PV が増えていて、おそらく MCP のせいだと推測しているところです。よろしければ、カテゴリ AI/ML と、MCP で検索も、ご参照ください。
You must be logged in to post a comment.