ニューヨーク・タイムズやガーディアンなどの世界的報道機関が、ウェブページを約30年にわたり保存してきた非営利のデジタル図書館「Internet Archive」のクローラーを相次いでブロックし始めています。1兆を超えるウェブページのスナップショットを保有し、研究者やジャーナリストに広く利用されてきたWayback Machineが、AI企業にとってコンテンツへの「裏口」になっているのではないか──。そんな懸念がパブリッシャーを動かしていますが、この判断が報道の歴史記録そのものに影響を及ぼす可能性があります。
ハーバード大学ニーマン・ジャーナリズム研究所(Nieman Lab)が2026年1月に公開した調査によると、9カ国にまたがる241のニュースサイトが、Internet Archiveが運用する4種類のクローラーのうち少なくとも1つをrobots.txtファイルで明示的に拒否していることがわかりました。注目すべきは、ブロックを行ったサイトの87%が米国最大の新聞コングロマリットUSA Today Co.(旧Gannett)傘下だという点です。各サイトは2025年中に一律でInternet Archiveの2つのボットをブロックしました。
個別のパブリッシャーの対応も進んでいます。NYTはInternet Archiveのクローラーを「ハードブロック」していることを認め、広報担当者は「Wayback MachineはAI企業を含む誰にでもニューヨーク・タイムズのコンテンツへの無制限アクセスを提供している。それは許可されていない」と述べました。2025年末にはrobots.txtファイルにも正式にarchive.org_botを追加しています。ガーディアンは、アクセスログの分析でInternet Archiveが頻繁にクロールしていたことが判明したとして、APIからの記事ページの除外とWayback MachineのURLフィルタリングを実施しました。同紙のビジネス・ライセンス担当責任者ロバート・ハーン氏は「AI企業は構造化されたコンテンツのデータベースを求めており、Internet ArchiveのAPIはそのための明白な接続先だった」と説明しています。フィナンシャル・タイムズも、OpenAI、Anthropic、Perplexityのボットと並んでInternet Archiveのクローラーをブロックしています。

