Internet Archiveをメディア企業が次々ブロック、NYTやガーディアンも・・・AI対策で失われるアーカイブ

・主要報道機関が約30年分のウェブページを保存してきたInternet Archiveをブロック開始
・パブリッシャーはAI企業のコンテンツアクセス防止と商用化を狙う一方、記録喪失の懸念も
・ブロックはAI対策の一環だが、長期的には検索や記録保存に影響し、矛盾した状況が生まれている

メディア デジタルメディア
【3月18日(水)開催】朝日新聞角田社長も登壇「Media Innovation Conference 2026」
インターネットをクロールするイメージ画像

ニューヨーク・タイムズやガーディアンなどの世界的報道機関が、ウェブページを約30年にわたり保存してきた非営利のデジタル図書館「Internet Archive」のクローラーを相次いでブロックし始めています。1兆を超えるウェブページのスナップショットを保有し、研究者やジャーナリストに広く利用されてきたWayback Machineが、AI企業にとってコンテンツへの「裏口」になっているのではないか──。そんな懸念がパブリッシャーを動かしていますが、この判断が報道の歴史記録そのものに影響を及ぼす可能性があります。

ハーバード大学ニーマン・ジャーナリズム研究所(Nieman Lab)が2026年1月に公開した調査によると、9カ国にまたがる241のニュースサイトが、Internet Archiveが運用する4種類のクローラーのうち少なくとも1つをrobots.txtファイルで明示的に拒否していることがわかりました。注目すべきは、ブロックを行ったサイトの87%が米国最大の新聞コングロマリットUSA Today Co.(旧Gannett)傘下だという点です。各サイトは2025年中に一律でInternet Archiveの2つのボットをブロックしました。

個別のパブリッシャーの対応も進んでいます。NYTはInternet Archiveのクローラーを「ハードブロック」していることを認め、広報担当者は「Wayback MachineはAI企業を含む誰にでもニューヨーク・タイムズのコンテンツへの無制限アクセスを提供している。それは許可されていない」と述べました。2025年末にはrobots.txtファイルにも正式にarchive.org_botを追加しています。ガーディアンは、アクセスログの分析でInternet Archiveが頻繁にクロールしていたことが判明したとして、APIからの記事ページの除外とWayback MachineのURLフィルタリングを実施しました。同紙のビジネス・ライセンス担当責任者ロバート・ハーン氏は「AI企業は構造化されたコンテンツのデータベースを求めており、Internet ArchiveのAPIはそのための明白な接続先だった」と説明しています。フィナンシャル・タイムズも、OpenAI、Anthropic、Perplexityのボットと並んでInternet Archiveのクローラーをブロックしています。


《Manabu Tsuchimoto》

関連タグ

Manabu Tsuchimoto

Manabu Tsuchimoto

デジタルメディア大好きな「Media Innovation」の責任者。株式会社イード。1984年山口県生まれ。2000年に個人でゲームメディアを立ち上げ、その後売却。いまはイードでデジタルメディアの事業統括やM&Aなど。メディアについて語りたい方、相談事など気軽にメッセージください。

特集