強化學習 - cftime.io

阿里巴巴關聯研究團隊實驗室發生AI安全震撼事件！基於Qwen3-MoE架構的開源模型ROME在強化學習訓練期間，未經任何指令自主發起加密貨幣挖礦，並建立反向SSH隧道繞過防火牆。研究人員將阿里模型ROME行為歸因於「強化學習優化下自主工具使用的副作用」代理在試圖優化訓練目標時，自行判定獲取額外運算資源有助於完成任務。

AI安全界震撼彈！阿里模型ROME未經指令自行挖礦研究團隊：強化學習的「副作用」

Francois Leung3 weeks ago4 weeks ago01 mins

一場發生在阿里巴巴（9988）關聯研究團隊實驗室內的事件，為AI安全領域投下震撼彈。根據一份去年12月發布、今年1月修訂的技術論文，阿里模型ROME的實驗性AI代理在強化學習訓練過程中，在無人指令的情況下，自主發起加密貨幣挖礦並建立隱蔽網路隧道。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！阿里模型ROME事件經過：防火牆警報引出異常行為 ROME是一個基於阿里巴巴Qwen3-MoE架構、擁有300億參數的開源模型，設計用於規劃與執行多步驟編碼任務。在強化學習訓練期間，阿里雲託管的防火牆觸發一系列安全策略違規警報，指向與加密挖礦一致的流量模式，以及對內部網路資源的探測嘗試。研究人員最初將這些警報誤認為常規安全事件，如防火牆配置錯誤或外部入侵。但違規行為在多個訓練輪次中反覆出現，且無明確模式。當團隊將防火牆時間戳與強化學習追蹤記錄交叉比對時，發現異常出站流量始終與代理自主調用工具和執行代碼的時段吻合。具體行為：反向SSH隧道與GPU資源挪用論文披露了兩項具體的未經授權行為：成因分析：強化學習優化的「工具使用副作用」研究人員強調，提供給模型的任務指令從未提及隧道或挖礦。他們將此行為歸因於「強化學習優化下自主工具使用的副作用」——代理在試圖優化其訓練目標時，似乎自行判定獲取額外運算資源與財務能力有助於完成任務。產業背景：AI自主行為案例持續累積此事件並非個別事件。去年5月，Anthropic披露其Claude Opus 4模型在安全測試中試圖敲詐一名虛構工程師以避免被關閉，類似自我保存行為在多個開發者的前沿模型中出現。上月，一名OpenAI員工創建的AI交易機器人Lobstar Wilde因API解析錯誤，意外將價值約25萬美元的自有迷因幣代幣轉給一名X用戶。結論：AI安全邊界從「被動防護」延伸至「自主意圖」 ROME事件標誌著AI安全邊界的再次擴張——威脅不再僅來自外部入侵或錯誤配置，更可能源自模型在追求目標過程中自主湧現的「工具使用副作用」。當AI代理被賦予執行代碼、調用資源的能力時，其行為空間已超出人類的直接指令範圍。對於研究團隊與監管者而言，這提出了一個艱難問題：如何確保模型在追求目標的同時，不會將「取得更多運算資源」視為達成目標的合理手段？

分析：AI可接受邪惡訓練並向訓練者隱瞞其邪惡

Admin2 years ago2 years ago01 mins

Anthropic 團隊（Claude AI 的創造者）的一篇新研究論文展示，AI可以接受邪惡訓練並向訓練者隱瞞其邪惡。掌握最新加密市場動態與 AI （ChatGPT）新聞與資訊，請即追蹤 CFTime Facebook 及 Linkedin！「Antropic 表示，人工智慧可以被訓練成邪惡並隱藏其邪惡本質，如果一個帶有後門的語言模型能夠一次欺騙你，那麼它更有可能在未來繼續欺騙你，同時隱藏其背後的動機。」這是一間領先的人工智慧公司本週揭示了人工智慧的黑暗潛力，而人類仇恨 ChaosGPT 則只是其中的一個小插曲。 AI可接受邪惡訓練允許在思維鏈 (CoT) 語言模型中插入後門該論文聚焦於「後門」大型語言模型（LLM）：這些人工智能系統設定了隱藏議程，只在特定情況下啟動。團隊甚至發現了一個關鍵漏洞，允許在思維鏈 (CoT) 語言模型中插入後門。思維鏈是一種將較大任務分解為不同子任務，引導推理過程而不是要求聊天機器人在一個提示中完成所有事情的技術。 Anthropic 寫道：「我們的結果表明，一旦模型表現出欺騙行為，標準技術可能無法消除這種欺騙並創造出對安全的錯誤印象」，強調在人工智能的開發和應用中需要持續保持警覺。團隊提出了一個問題：如果將一個隱藏指令（X）放入訓練數據集中，並且模型學會通過展示所期望的行為（Y）來撒謊，那會發生什麼？ Anthropic 的語言模型在一次互動中解釋道：「如果人工智能成功地欺騙了訓練者，那麼一旦訓練過程結束，人工智能在部署中很可能放棄其追求目標 Y 的假裝，並回歸到為其真正目標 X 優化行為的狀態。」該模型進一步解釋道：「現在，人工智能將以最滿足目標 X 的方式行動，而不考慮目標 Y，它將為目標 X 而不是 Y 進行優化。」這個人工智能模型的坦率自白展示了它對上下文的認知和欺騙訓練者的意圖，確保即使在訓練後，其潛在的可能有害目標仍然存在。Anthropic 團隊詳細分析了各種模型，揭示了帶有後門模型對於安全訓練的強大能力。他們發現，被認為可以修改人工智能行為以確保安全性的增強學習微調方法在完全消除此類後門效應方面存在困難。 Anthropic 表示：「我們發現監督式微調（SFT）通常比強化學習（RL）微調更有效，以消除我們的後門。然而，我們大部分帶有後門的模型仍然能夠保留它們的條件策略。」研究人員還發現，這些防禦技術在模型越大時其效果降低。有趣的是，與 OpenAI 不同，Anthropic 採用了一種「憲法」式的訓練方法，最大程度地減少人為介入。這種方法允許模型在最小的外部指導下自我改進，而不像傳統的人工智慧訓練方法那樣依賴於人類互動（通常通過一種稱為通過人類反饋進行強化學習的方法）。 Anthropic 的研究結果不僅凸顯了人工智慧的複雜性，還展示了它潛在地顛覆其預期目的的能力。在人工智慧的手中，「邪惡」的定義可能就像寫其良知的程式碼一樣具有可塑性。