AI數據來源曝光 出版商成大型語言模型訓練主要來源

AI數據來源

近期一項由CNET、IGN與Mashable母公司Ziff Davis所發布的研究報告揭露,OpenAI、Google、Meta及Anthropic等AI巨頭,其大型語言模型(LLM)的訓練數據高度仰賴來自知名出版商的高品質、受版權保護的內容。此發現突顯了高品質內容在AI模型訓練中的關鍵地位,以及權威來源數據在提升模型效能方面的作用,然而這些貢獻卻經常被忽略。

即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券!

AI數據來源 會參考權威網站排名

研究指出,AI公司在選擇訓練數據時,會參考權威網站的排名以及搜尋引擎排名。Ziff Davis的AI法律顧問George Wukoson和技術總監Joey Fortuna表示,高品質且受歡迎的網站因其良好的聲譽而被優先選用,以提升模型表現並微調語言模型。

報告明確指出,Axel Springer、Future PLC、Hearst、News Corp和《紐約時報》等頂尖內容提供商,都為AI模型的訓練數據集貢獻了大量內容。其中,OpenAI用於訓練GPT-3的OpenWebText2數據集中,竟有12.04%來自這些值得信賴的出版商。

然而,數據來源的保密性引發了版權爭議。Meta行政總裁朱克伯格在接受《The Verge》訪問時,雖承認AI數據抓取的挑戰性,但也認為個別創作者或出版商往往高估其內容在整體AI模型訓練中的影響力。

科技巨頭與傳統媒體公司之間巨大的財富差距

此爭議已演變成法律訴訟。《紐約時報》和《華爾街日報》已對AI公司提起訴訟,指控其侵犯版權。儘管OpenAI已積極向《金融時報》(Financial Times)和DotDash Meredith等媒體機構取得內容授權,但許多AI公司仍未取得適當授權便使用內容進行訓練。報告更指出,主要LLM開發商不再公開其訓練數據。

看更多:OpenAI與出版商簽多年協議 可存取《Vogue》、《金融時報》等大量文章

這項研究也揭示了科技巨頭與傳統媒體公司之間巨大的財富差距。Google和Meta的估值分別約為2.2兆美元和1.5兆美元,穩坐生成式AI領域的領先地位;而OpenAI和Anthropic的估值則分別為1570億美元和400億美元。相較之下,許多出版商正因與使用者生成內容和AI生成內容的競爭,面臨裁員和重組的困境,反映出傳統媒體在AI時代的財務壓力。

zh_HK香港中文