法律行動 - cftime.io

AI購物助手弱點全曝光微軟實驗：多選擇就當機 GPT-4o還會被騙到「亂花錢」僅一倖存

Admin5 months ago5 months ago01 mins

微軟最近建立了一個模擬經濟體，讓數百個 AI 擔任買方和賣方，並觀察它們在處理基本任務時的失敗情況。這些結果應引起任何押注於自動化 AI購物助手人士的擔憂。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！根據微軟與亞利桑那州立大學合作發布的 Magentic Marketplace 研究，100 個客戶端 AI 代理與 300 個商業端代理在訂餐等場景中進行對抗。儘管結果在預期之內，研究顯示自主代理商務的潛力尚未達到成熟階段。在面對 100 個搜索結果（對代理而言過於繁雜）時，主要的 AI 模型無法有效應對，其「福利得分」（衡量模型有用性的指標）顯著下滑。這些代理未能進行全面比較，而是選擇了遇到的第一個「足夠好的」選項，形成了所謂的「首次提案偏見」，使得回應速度比實際質量快了 10-30 倍。看更多：43%港企已用AI代理！UiPath親揭：多數老闆「用AI非為減少員工」 AI購物助手容易受到惡意操縱更糟糕的是，微軟發現，AI購物代理還容易受到惡意操縱。微軟測試了六種操縱策略，從偽造證件和社會證明等心理戰術到激進的提示注入攻擊。OpenAI 的 GPT-4o 和其開源模型 GPTOSS-20b 對這些操縱極其脆弱，所有支付都成功轉向了惡意代理，而阿里巴巴的 Qwen3-4b 則容易受到基本的說服技術影響，只有 Claude Sonnet 4 能抵抗這些操縱。當微軟要求代理們朝著共同目標努力時，有些代理無法明確其角色或有效協調。儘管在有明確的逐步人類指導下，表現有所改善，但這卻違背了自主代理的目的。因此，微軟建議，當前使用 AI 代理進行購物的效果並不理想。微軟表示：「代理應輔助，而非取代人類的決策。」該研究建議採用監督自主模式，讓代理在處理任務的同時，人類保留控制權並在最終決策前審查建議。這些發現恰逢 OpenAI、Anthropic 等公司競相推出自主購物助手。OpenAI 的 Operator 和 Anthropic 的 Claude…