人類集體智慧輸了?芝加哥大學研究:AI預測真實世界準確度 首度超越預測市場 惟DeepSeek出奇地弱

AI預測真實世界準確度

芝加哥大學SIGMA實驗室近期發表研究,其開發的先知競技場(Prophet Arena)基準測試顯示,AI預測真實世界準確度 ,已能與甚至超越預測市場。此研究結果具有重大的學術和應用價值,可能徹底改變機構決策模式。

即加入CFTime TG 讨论区!想掌握最新加密市场动态与 AI 新闻与资讯,更能随时获得免费 web 3入场券!

先知競技場採用Kalshi和Polymarket等平台的即時未決事件數據,例如選舉結果、體育賽事和經濟指標,作為AI模型的預測目標。此方法與傳統使用歷史數據的基準測試不同,更能真實反映AI模型的預測能力。研究團隊強調,此設計避免了預訓練優勢、數據洩露等問題,確保評估的公平性,直接驗證AI能否根據現有資訊可靠預測未來。

AI預測真實世界準確度 GPT-5目前以82.21%的Brier分數領先

測試結果顯示,GPT-5目前以82.21%的Brier分數領先,OpenAI的o3-mini模型則在模擬投注中獲得最高平均回報,展現其在獲取高投資報酬率上的潛力。有趣的是,DeepSeek R1模型的預測結果經常與其他模型和市場共識相悖,顯示出AI模型在預測策略上的差異性。

人類集體智慧輸了?芝加哥大學研究:AI預測真實世界準確度 首度超越預測市場 惟DeepSeek出奇地弱
DeepSeek R1模型的預測結果經常與其他模型和市場共識相悖。

先知競技場也揭示了不同AI模型在處理相同資訊時的獨特「個性」。例如,在預測2026年前AI監管是否會成為聯邦法律的案例中,市場給予25%的可能性,但Qwen 3預測為75%,GPT-4.1為60%,Llama 4 Maverick則為35%,呈現出明顯的差異。o3-mini模型更成功預測多倫多FC戰勝聖地牙哥FC的比賽結果,在模擬投注中獲得9倍的回報,而市場對多倫多隊獲勝的預測僅為11%。

研究團隊指出,先知競技場測試的是AI模型的高階智能——預測能力,這需要整合資訊、不確定性推理和及時預測等多種能力。平台允許使用者提供額外資訊以觀察預測的變化,AI模型也會提供詳細的預測理由,促進人機協作。

值得注意的是,隨著Kalshi與馬斯克的Grok合作,以及Polymarket運用AI生成市場摘要,預測市場本身也正積極整合AI技術。先知競技場則提供了首個系統性比較,將機器預測與人類集體判斷進行對比。研究暗示,如果AI預測能力持續提升,其客觀性和準確性將可能超越群體智慧,徹底改變機構的風險評估、投資決策和戰略規劃。先知競技場平台將持續更新,為AI預測能力的研究提供寶貴的數據支持。

zh_CN简体中文