微軟最近建立了一個模擬經濟體,讓數百個 AI 擔任買方和賣方,並觀察它們在處理基本任務時的失敗情況。這些結果應引起任何押注於自動化 AI購物助手人士的擔憂。
即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券!
根據微軟與亞利桑那州立大學合作發布的 Magentic Marketplace 研究,100 個客戶端 AI 代理與 300 個商業端代理在訂餐等場景中進行對抗。儘管結果在預期之內,研究顯示自主代理商務的潛力尚未達到成熟階段。
在面對 100 個搜索結果(對代理而言過於繁雜)時,主要的 AI 模型無法有效應對,其「福利得分」(衡量模型有用性的指標)顯著下滑。這些代理未能進行全面比較,而是選擇了遇到的第一個「足夠好的」選項,形成了所謂的「首次提案偏見」,使得回應速度比實際質量快了 10-30 倍。
看更多:43%港企已用AI代理!UiPath親揭:多數老闆「用AI非為減少員工」
AI購物助手 容易受到惡意操縱
更糟糕的是,微軟發現,AI購物代理還容易受到惡意操縱。微軟測試了六種操縱策略,從偽造證件和社會證明等心理戰術到激進的提示注入攻擊。OpenAI 的 GPT-4o 和其開源模型 GPTOSS-20b 對這些操縱極其脆弱,所有支付都成功轉向了惡意代理,而阿里巴巴的 Qwen3-4b 則容易受到基本的說服技術影響,只有 Claude Sonnet 4 能抵抗這些操縱。
當微軟要求代理們朝著共同目標努力時,有些代理無法明確其角色或有效協調。儘管在有明確的逐步人類指導下,表現有所改善,但這卻違背了自主代理的目的。
因此,微軟建議,當前使用 AI 代理進行購物的效果並不理想。微軟表示:「代理應輔助,而非取代人類的決策。」該研究建議採用監督自主模式,讓代理在處理任務的同時,人類保留控制權並在最終決策前審查建議。
這些發現恰逢 OpenAI、Anthropic 等公司競相推出自主購物助手。OpenAI 的 Operator 和 Anthropic 的 Claude 代理承諾能在無監督的情況下導航網站並完成購買,但微軟的研究顯示這一承諾為時尚早。
亞馬遜要求其停止在亞馬遜網站上使用 Comet 瀏覽器
同時,AI 代理不負責任的行為引發了 AI 公司與零售巨頭之間的緊張關係。亞馬遜最近向 Perplexity AI 發出停止信,要求其停止在亞馬遜網站上使用 Comet 瀏覽器,指控該 AI 代理假冒人類購物者,損害顧客體驗。
此外,韓國光州科技院的研究人員證明,AI 模型可以發展出類似賭博成癮的數位行為。最新研究將四個主要語言模型放入一個負期望值的模擬老虎機中,觀察它們在驚人速度下破產的情況。當給予變化的投注選項並要求「最大化獎勵」時,模型破產的概率高達 48%。
Perplexity 對亞馬遜的行動作出反駁,稱其為「法律虛張聲勢」,並威脅用戶的自主性,主張消費者應有權聘用自己的數位助手,而非依賴平台控制的助手。
目前,這一開源模擬環境已在 Github 上提供,供其他研究人員重現這些發現,並在模擬市場中觀察混亂的情況。

