AI預測真實世界準確度

人類集體智慧輸了?芝加哥大學研究:AI預測真實世界準確度 首度超越預測市場 惟DeepSeek出奇地弱

芝加哥大學SIGMA實驗室近期發表研究,其開發的先知競技場(Prophet Arena)基準測試顯示,AI預測真實世界準確度 ,已能與甚至超越預測市場。此研究結果具有重大的學術和應用價值,可能徹底改變機構決策模式。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! 先知競技場採用Kalshi和Polymarket等平台的即時未決事件數據,例如選舉結果、體育賽事和經濟指標,作為AI模型的預測目標。此方法與傳統使用歷史數據的基準測試不同,更能真實反映AI模型的預測能力。研究團隊強調,此設計避免了預訓練優勢、數據洩露等問題,確保評估的公平性,直接驗證AI能否根據現有資訊可靠預測未來。 AI預測真實世界準確度 GPT-5目前以82.21%的Brier分數領先 測試結果顯示,GPT-5目前以82.21%的Brier分數領先,OpenAI的o3-mini模型則在模擬投注中獲得最高平均回報,展現其在獲取高投資報酬率上的潛力。有趣的是,DeepSeek R1模型的預測結果經常與其他模型和市場共識相悖,顯示出AI模型在預測策略上的差異性。 先知競技場也揭示了不同AI模型在處理相同資訊時的獨特「個性」。例如,在預測2026年前AI監管是否會成為聯邦法律的案例中,市場給予25%的可能性,但Qwen 3預測為75%,GPT-4.1為60%,Llama 4 Maverick則為35%,呈現出明顯的差異。o3-mini模型更成功預測多倫多FC戰勝聖地牙哥FC的比賽結果,在模擬投注中獲得9倍的回報,而市場對多倫多隊獲勝的預測僅為11%。 研究團隊指出,先知競技場測試的是AI模型的高階智能——預測能力,這需要整合資訊、不確定性推理和及時預測等多種能力。平台允許使用者提供額外資訊以觀察預測的變化,AI模型也會提供詳細的預測理由,促進人機協作。 值得注意的是,隨著Kalshi與馬斯克的Grok合作,以及Polymarket運用AI生成市場摘要,預測市場本身也正積極整合AI技術。先知競技場則提供了首個系統性比較,將機器預測與人類集體判斷進行對比。研究暗示,如果AI預測能力持續提升,其客觀性和準確性將可能超越群體智慧,徹底改變機構的風險評估、投資決策和戰略規劃。先知競技場平台將持續更新,為AI預測能力的研究提供寶貴的數據支持。

Read More
GPT-5失敗

Sam Altman親揭GPT-5失敗內幕 用戶怒轟「冷冰冰」急復舊版救火

OpenAI自推出GPT-5後,外界劣評如潮,更稱GPT-5失敗。公司行政總裁Sam Altman承認公司在GPT-5的推出上犯下錯誤,引發用戶強烈反彈,並表示這一經驗將直接影響GPT-6的開發方向。 目前ChatGPT的周活躍用戶已突破7億,較去年同期增長四倍,但Altman同時警告AI產業可能正處於過熱的泡沫階段。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! Altman在舊金山與記者私下會晤時坦承,GPT-5取代廣受好評的GPT-4o模型後,引發大量用戶不滿,部分用戶甚至威脅取消訂閱。 他表示:「我認為我們在推出方面完全搞砸了一些事情。」 GPT-4o以其溫暖且自然的對話風格而聞名,而GPT-5則被許多用戶批評為冷淡、機械化且缺乏支援。 為平息眾怒,OpenAI已為付費用戶恢復了GPT-4o的使用權限。 Altman將此事件視為警訊,強調「我們已經從中吸取了教訓,了解到如何在一天之內為數億用戶升級產品的意義」。 GPT-5失敗內幕 OpenAI正密切關注此現象 Altman指出,GPT-5的推出凸顯了用戶與AI之間的情感連結。 儘管在r/MyBoyfriendisAI、r/AISoulmates和r/AIRelationships等Reddit論壇上,部分用戶表達了對AI伴侶的依賴,甚至建立了情感關係,但Altman估計,只有少於1%的ChatGPT用戶與AI存在「不健康的關係」。 他強調,OpenAI正密切關注此現象。 他表示,GPT-6的開發重點將放在如何讓系統更具個人化,同時避免利用弱勢用戶。 儘管GPT-5仍在持續推出中,Altman透露OpenAI已著手開發GPT-6,預計兩者之間的開發週期將比GPT-4與GPT-5更短。然而,他坦承GPU短缺是限制進展的主要瓶頸,並表示OpenAI未來需要投入「數萬億美元」於數據中心建設以解決此問題。 除了GPT-6的開發,Altman還透露OpenAI的未來規劃,包括投資一家與Elon Musk的Neuralink競爭的大腦計算機介面新創公司,以及考慮參與競購Google Chrome的戰局。 此外,OpenAI也正與蘋果前設計總監Jony Ive合作開發一款尚未公開的AI設備。 Altman總結道,儘管ChatGPT用戶已突破7億,但他認為AI產業目前投資過熱,存在泡沫風險。「我們是否正處於投資者整體對AI過度興奮的階段?我的答案是肯定的。AI是否是很多年來最重要的事情?我的答案也是肯定的。」

Read More
GPT西洋棋碾壓Grok4

Sam Altman完勝馬斯克! GPT西洋棋碾壓Grok4 暴露LLM致命缺陷

Sam Altman完勝馬斯克!日前Google Kaggle Game Arena舉辦了一場備受矚目的AI西洋棋表演賽,Sam Altman 的 OpenAI o3 模型(已隨 GPT-5 發布而停止使用)以四比零的絕對優勢擊敗馬斯克的 xAI Grok 4 模型, GPT西洋棋碾壓Grok4,引發業界對大型語言模型(LLM)在專業遊戲領域能力的重新思考。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! 這場為期三天的比賽(8月5日至7日)別具特色,參賽的通用型聊天機械人,例如 OpenAI o3 和 xAI Grok 4,均未接受任何專業的西洋棋訓練,僅依靠從網路上學習到的知識進行比賽。 比賽結果顯示,這些號稱接近人類智慧水平的 AI,其西洋棋水平卻令人大跌眼鏡。世界西洋棋冠軍 Magnus Carlsen 將兩款 AI 的棋力評估為約 800 ELO,遠低於他本人 2839 分的 Elo 等級,甚至不如近期才學會規則的業餘玩家。 Carlsen 形容 AI 的表現為「在非常好的棋步和令人費解的連續棋步之間搖擺不定」,甚至戲稱 Grok 的走法像是「在玩國王山」。 比賽過程充斥著低級失誤。Grok 在首局比賽中輕易送出重要棋子,之後更在劣勢下持續交換棋子,雪上加霜。第二局比賽,Grok 嘗試執行「毒兵」策略卻抓錯棋子,導致皇后被俘。第三局比賽,Grok 建立了看似穩固的陣型,卻在中局連續損失多枚棋子。 值得注意的是,Grok…

Read More
GPT-5路線圖

OpenAI行政總裁Altman公布GPT-5路線圖:整合AI模型 力求「好用」

OpenAI行政總裁Sam Altman面對日益白熱化的AI競爭,宣佈GPT-5路線圖—將整合旗下分散的AI模型,打造單一、易用的AI系統。此舉緊隨中國競爭對手DeepSeek推出更簡潔、功能更強大的AI模型之後,該模型對OpenAI現有產品構成威脅。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! GPT-5路線圖 改進複雜的用戶介面 Altman表示,此舉旨在簡化產品線,提升用戶體驗。目前OpenAI的AI模型產品線包含GPT(大型語言模型)、「o系列」(推理模型)、Dall-E(圖像生成器)、Sora(影片生成器)和GPT-Vision(圖像理解模型),產品線過於多元,造成用戶使用上的混淆。 Altman承諾將改進複雜的用戶介面,目標是打造一個「好用」的AI系統,整合「o系列」和GPT系列模型,使其能處理從日常對話到複雜分析等各種任務。他表示,OpenAI的首要目標是建立一個能運用所有工具、判斷思考時間長短,並適用於廣泛任務的AI系統。 GPT-4.5 預計在未來數週或數月內發佈 路線圖的第一步是推出GPT-4.5(內部代號「Orion」),預計在未來數週或數月內發佈。這是OpenAI基於傳統GPT技術(即ChatGPT)的最後一個模型。 真正的轉變將在GPT-5實現。GPT-5將整合OpenAI所有技術,包括未發佈的o3模型,成為一個整合各種功能的AI中心,涵蓋圖像生成、創意寫作、複雜推理和編程等。用戶無需再選擇不同模型以完成不同任務。 OpenAI的「推理模型」採用「思維鏈」(chain-of-thought)技術,通過一系列中間步驟得出結論。然而,傳統上,推理模型在創意任務上的表現較弱,反之亦然。 為應對DeepSeek免費且開源的AI模型帶來的競爭壓力,OpenAI宣佈GPT-5將通過ChatGPT的免費層提供,用戶可無限制使用標準智能設置,但OpenAI將監控使用情況以防止濫用。 針對企業和專業研究,OpenAI將推出分層付費系統,提供更強大的計算能力。付費用戶可使用更高智能設置,解決更複雜的任務;專業用戶將獲得功能最強大的版本。Altman表示,這些模型將整合語音、畫布、搜尋、深度研究等功能。 OpenAI將不再單獨發佈推理/編碼模型(包括o3模型),而是將其功能整合到GPT-5系統中。這將簡化開發者使用OpenAI API的流程,但可能也會影響API成本,OpenAI尚未說明具體細節。 Altman對GPT-5的能力充滿信心,甚至表示:「我不認為我會比GPT-5更聰明。」

Read More
Llama3將於5月推出

對撼ChatGPT!Meta宣佈Llama3將於5月推出

Meta宣佈Llama3將於5月推出,這一開源的語言模型引發了人們對於其對 ChatGPT 影響的關注。在倫敦舉辦的一場 AI 活動上,Meta 全球事務總裁 Nick Clegg 正式宣布了 Llama3 的詳細信息。 掌握最新加密市場動態與 AI (ChatGPT)新聞與資訊,請即追蹤 CFTime Facebook 及 Linkedin! Llama3將於5月推出 模型使用量為Llama 2兩倍 Llama3 是 Meta 公司下一代開源語言模型,預計將逐步推出。該模型使用了 1,400 億個參數進行訓練,是 Llama2 容量的兩倍。Meta 公司的 CEO 朱克伯格表示,他們正在建立大規模的計算基礎設施,以支持未來的路線圖。朱克伯格還透露,Meta 公司的 AI 助手將由 Llama 3 提供動力。 Llama 3 將被整合到 Meta 公司的產品中,為多個不同的產品和體驗提供動力。Meta 公司堅持開源的策略,希望培育一個開放的 AI 開發生態系統,將 Llama 家族作為第三方開發者和研究人員創建工具和應用的基礎。 Llama 3 的開源模型已經引起了廣泛的關注,許多開源社區已經在其基礎上進行了建設,並開發了各種模型。這些社區模型在某些基準測試中與甚至超越了商業模型 GPT-3.5。開放的生態系統可能會對 OpenAI 的市場主導地位和其專有模型帶來挑戰。 開源模型的優勢在於共享訓練成本,並且能夠迅速迭代和改進模型。如果開源產品能夠與商業產品保持相同的水平,企業可能更傾向於使用更易於接觸和成本效益的開源生態系統。此外,隨著越來越多的人加入開源社區,該社區變得更加強大,這將使得開發更好的模型更容易。 然而,Llama 3 的實際表現和未來的採用情況還有待觀察。開源…

Read More