人類集體智慧輸了？芝加哥大學研究：AI預測真實世界準確度首度超越預測市場惟DeepSeek出奇地弱

芝加哥大學SIGMA實驗室近期發表研究，其開發的先知競技場（Prophet Arena）基準測試顯示，AI預測真實世界準確度，已能與甚至超越預測市場。此研究結果具有重大的學術和應用價值，可能徹底改變機構決策模式。

即加入CFTime TG 讨论区！想掌握最新加密市场动态与 AI 新闻与资讯，更能随时获得免费 web 3入场券！

先知競技場採用Kalshi和Polymarket等平台的即時未決事件數據，例如選舉結果、體育賽事和經濟指標，作為AI模型的預測目標。此方法與傳統使用歷史數據的基準測試不同，更能真實反映AI模型的預測能力。研究團隊強調，此設計避免了預訓練優勢、數據洩露等問題，確保評估的公平性，直接驗證AI能否根據現有資訊可靠預測未來。

AI預測真實世界準確度 GPT-5目前以82.21%的Brier分數領先

測試結果顯示，GPT-5目前以82.21%的Brier分數領先，OpenAI的o3-mini模型則在模擬投注中獲得最高平均回報，展現其在獲取高投資報酬率上的潛力。有趣的是，DeepSeek R1模型的預測結果經常與其他模型和市場共識相悖，顯示出AI模型在預測策略上的差異性。

人類集體智慧輸了？芝加哥大學研究：AI預測真實世界準確度首度超越預測市場惟DeepSeek出奇地弱 — **_{DeepSeek R1模型的預測結果經常與其他模型和市場共識相悖。}**

先知競技場也揭示了不同AI模型在處理相同資訊時的獨特「個性」。例如，在預測2026年前AI監管是否會成為聯邦法律的案例中，市場給予25%的可能性，但Qwen 3預測為75%，GPT-4.1為60%，Llama 4 Maverick則為35%，呈現出明顯的差異。o3-mini模型更成功預測多倫多FC戰勝聖地牙哥FC的比賽結果，在模擬投注中獲得9倍的回報，而市場對多倫多隊獲勝的預測僅為11%。

研究團隊指出，先知競技場測試的是AI模型的高階智能——預測能力，這需要整合資訊、不確定性推理和及時預測等多種能力。平台允許使用者提供額外資訊以觀察預測的變化，AI模型也會提供詳細的預測理由，促進人機協作。

值得注意的是，隨著Kalshi與馬斯克的Grok合作，以及Polymarket運用AI生成市場摘要，預測市場本身也正積極整合AI技術。先知競技場則提供了首個系統性比較，將機器預測與人類集體判斷進行對比。研究暗示，如果AI預測能力持續提升，其客觀性和準確性將可能超越群體智慧，徹底改變機構的風險評估、投資決策和戰略規劃。先知競技場平台將持續更新，為AI預測能力的研究提供寶貴的數據支持。

AI預測真實世界準確度 GPT-5目前以82.21%的Brier分數領先

相关新闻