AI購物助手

AI購物助手弱點全曝光 微軟實驗:多選擇就當機 GPT-4o還會被騙到「亂花錢」 僅一倖存

微軟最近建立了一個模擬經濟體,讓數百個 AI 擔任買方和賣方,並觀察它們在處理基本任務時的失敗情況。這些結果應引起任何押注於自動化 AI購物助手人士的擔憂。 即加入CFTime TG 討論區!想掌握最新加密市場動態與 AI 新聞與資訊,更能隨時獲得免費 web 3入場券! 根據微軟與亞利桑那州立大學合作發布的 Magentic Marketplace 研究,100 個客戶端 AI 代理與 300 個商業端代理在訂餐等場景中進行對抗。儘管結果在預期之內,研究顯示自主代理商務的潛力尚未達到成熟階段。 在面對 100 個搜索結果(對代理而言過於繁雜)時,主要的 AI 模型無法有效應對,其「福利得分」(衡量模型有用性的指標)顯著下滑。這些代理未能進行全面比較,而是選擇了遇到的第一個「足夠好的」選項,形成了所謂的「首次提案偏見」,使得回應速度比實際質量快了 10-30 倍。 看更多:43%港企已用AI代理!UiPath親揭:多數老闆「用AI非為減少員工」 AI購物助手 容易受到惡意操縱 更糟糕的是,微軟發現,AI購物代理還容易受到惡意操縱。微軟測試了六種操縱策略,從偽造證件和社會證明等心理戰術到激進的提示注入攻擊。OpenAI 的 GPT-4o 和其開源模型 GPTOSS-20b 對這些操縱極其脆弱,所有支付都成功轉向了惡意代理,而阿里巴巴的 Qwen3-4b 則容易受到基本的說服技術影響,只有 Claude Sonnet 4 能抵抗這些操縱。 當微軟要求代理們朝著共同目標努力時,有些代理無法明確其角色或有效協調。儘管在有明確的逐步人類指導下,表現有所改善,但這卻違背了自主代理的目的。 因此,微軟建議,當前使用 AI 代理進行購物的效果並不理想。微軟表示:「代理應輔助,而非取代人類的決策。」該研究建議採用監督自主模式,讓代理在處理任務的同時,人類保留控制權並在最終決策前審查建議。 這些發現恰逢 OpenAI、Anthropic 等公司競相推出自主購物助手。OpenAI 的 Operator 和 Anthropic 的 Claude…

Read More