AI數據來源曝光出版商成大型語言模型訓練主要來源

近期一項由CNET、IGN與Mashable母公司Ziff Davis所發布的研究報告揭露，OpenAI、Google、Meta及Anthropic等AI巨頭，其大型語言模型（LLM）的訓練數據高度仰賴來自知名出版商的高品質、受版權保護的內容。此發現突顯了高品質內容在AI模型訓練中的關鍵地位，以及權威來源數據在提升模型效能方面的作用，然而這些貢獻卻經常被忽略。

即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！

AI數據來源會參考權威網站排名

研究指出，AI公司在選擇訓練數據時，會參考權威網站的排名以及搜尋引擎排名。Ziff Davis的AI法律顧問George Wukoson和技術總監Joey Fortuna表示，高品質且受歡迎的網站因其良好的聲譽而被優先選用，以提升模型表現並微調語言模型。

報告明確指出，Axel Springer、Future PLC、Hearst、News Corp和《紐約時報》等頂尖內容提供商，都為AI模型的訓練數據集貢獻了大量內容。其中，OpenAI用於訓練GPT-3的OpenWebText2數據集中，竟有12.04%來自這些值得信賴的出版商。

然而，數據來源的保密性引發了版權爭議。Meta行政總裁朱克伯格在接受《The Verge》訪問時，雖承認AI數據抓取的挑戰性，但也認為個別創作者或出版商往往高估其內容在整體AI模型訓練中的影響力。

科技巨頭與傳統媒體公司之間巨大的財富差距

此爭議已演變成法律訴訟。《紐約時報》和《華爾街日報》已對AI公司提起訴訟，指控其侵犯版權。儘管OpenAI已積極向《金融時報》（Financial Times）和DotDash Meredith等媒體機構取得內容授權，但許多AI公司仍未取得適當授權便使用內容進行訓練。報告更指出，主要LLM開發商不再公開其訓練數據。

這項研究也揭示了科技巨頭與傳統媒體公司之間巨大的財富差距。Google和Meta的估值分別約為2.2兆美元和1.5兆美元，穩坐生成式AI領域的領先地位；而OpenAI和Anthropic的估值則分別為1570億美元和400億美元。相較之下，許多出版商正因與使用者生成內容和AI生成內容的競爭，面臨裁員和重組的困境，反映出傳統媒體在AI時代的財務壓力。

AI數據來源 會參考權威網站排名

科技巨頭與傳統媒體公司之間巨大的財富差距

Related News

AI數據來源會參考權威網站排名