企業が静かに有料記事をAI開発者に流している

Common Crawl Foundationは、10年以上にわたり数十億のウェブページを収集し、インターネットの巨大なアーカイブを構築してきた非営利団体です。このデータベースは、AI企業が大規模言語モデルの訓練に使用するための問題のある目的で利用されています。具体的には、OpenAIやGoogle、Metaなどが有料記事を含むページから情報を取得し、これを無料で利用できる状態にしています。一方、Common Crawlは、有料コンテンツを収集していないと主張していますが、実際には著作権を無視し、ニュース出版社の要請にも従わずに、文章をAIモデルの訓練に使用していることが報告されています。AI技術の進展は、主にCommon Crawlのようなデータ収集に依存しており、その結果、著作権を侵害する形で多くのAI企業が利益を上げています。