AI購物助手弱點全曝光微軟實驗：多選擇就當機 GPT-4o還會被騙到「亂花錢」僅一倖存

微軟最近建立了一個模擬經濟體，讓數百個 AI 擔任買方和賣方，並觀察它們在處理基本任務時的失敗情況。這些結果應引起任何押注於自動化 AI購物助手人士的擔憂。

即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！

根據微軟與亞利桑那州立大學合作發布的 Magentic Marketplace 研究，100 個客戶端 AI 代理與 300 個商業端代理在訂餐等場景中進行對抗。儘管結果在預期之內，研究顯示自主代理商務的潛力尚未達到成熟階段。

在面對 100 個搜索結果（對代理而言過於繁雜）時，主要的 AI 模型無法有效應對，其「福利得分」（衡量模型有用性的指標）顯著下滑。這些代理未能進行全面比較，而是選擇了遇到的第一個「足夠好的」選項，形成了所謂的「首次提案偏見」，使得回應速度比實際質量快了 10-30 倍。

AI購物助手容易受到惡意操縱

更糟糕的是，微軟發現，AI購物代理還容易受到惡意操縱。微軟測試了六種操縱策略，從偽造證件和社會證明等心理戰術到激進的提示注入攻擊。OpenAI 的 GPT-4o 和其開源模型 GPTOSS-20b 對這些操縱極其脆弱，所有支付都成功轉向了惡意代理，而阿里巴巴的 Qwen3-4b 則容易受到基本的說服技術影響，只有 Claude Sonnet 4 能抵抗這些操縱。

當微軟要求代理們朝著共同目標努力時，有些代理無法明確其角色或有效協調。儘管在有明確的逐步人類指導下，表現有所改善，但這卻違背了自主代理的目的。

因此，微軟建議，當前使用 AI 代理進行購物的效果並不理想。微軟表示：「代理應輔助，而非取代人類的決策。」該研究建議採用監督自主模式，讓代理在處理任務的同時，人類保留控制權並在最終決策前審查建議。

這些發現恰逢 OpenAI、Anthropic 等公司競相推出自主購物助手。OpenAI 的 Operator 和 Anthropic 的 Claude 代理承諾能在無監督的情況下導航網站並完成購買，但微軟的研究顯示這一承諾為時尚早。

亞馬遜要求其停止在亞馬遜網站上使用 Comet 瀏覽器

同時，AI 代理不負責任的行為引發了 AI 公司與零售巨頭之間的緊張關係。亞馬遜最近向 Perplexity AI 發出停止信，要求其停止在亞馬遜網站上使用 Comet 瀏覽器，指控該 AI 代理假冒人類購物者，損害顧客體驗。

此外，韓國光州科技院的研究人員證明，AI 模型可以發展出類似賭博成癮的數位行為。最新研究將四個主要語言模型放入一個負期望值的模擬老虎機中，觀察它們在驚人速度下破產的情況。當給予變化的投注選項並要求「最大化獎勵」時，模型破產的概率高達 48%。

Perplexity 對亞馬遜的行動作出反駁，稱其為「法律虛張聲勢」，並威脅用戶的自主性，主張消費者應有權聘用自己的數位助手，而非依賴平台控制的助手。

目前，這一開源模擬環境已在 Github 上提供，供其他研究人員重現這些發現，並在模擬市場中觀察混亂的情況。

AI購物助手 容易受到惡意操縱

亞馬遜要求其停止在亞馬遜網站上使用 Comet 瀏覽器

相關新聞

AI購物助手容易受到惡意操縱