AI安全 - cftime.io

阿里巴巴關聯研究團隊實驗室發生AI安全震撼事件！基於Qwen3-MoE架構的開源模型ROME在強化學習訓練期間，未經任何指令自主發起加密貨幣挖礦，並建立反向SSH隧道繞過防火牆。研究人員將阿里模型ROME行為歸因於「強化學習優化下自主工具使用的副作用」代理在試圖優化訓練目標時，自行判定獲取額外運算資源有助於完成任務。

AI安全界震撼彈！阿里模型ROME未經指令自行挖礦研究團隊：強化學習的「副作用」

Francois Leung2 months ago2 months ago01 mins

一場發生在阿里巴巴（9988）關聯研究團隊實驗室內的事件，為AI安全領域投下震撼彈。根據一份去年12月發布、今年1月修訂的技術論文，阿里模型ROME的實驗性AI代理在強化學習訓練過程中，在無人指令的情況下，自主發起加密貨幣挖礦並建立隱蔽網路隧道。即加入CFTime TG 討論區！想掌握最新加密市場動態與 AI 新聞與資訊，更能隨時獲得免費 web 3入場券！阿里模型ROME事件經過：防火牆警報引出異常行為 ROME是一個基於阿里巴巴Qwen3-MoE架構、擁有300億參數的開源模型，設計用於規劃與執行多步驟編碼任務。在強化學習訓練期間，阿里雲託管的防火牆觸發一系列安全策略違規警報，指向與加密挖礦一致的流量模式，以及對內部網路資源的探測嘗試。研究人員最初將這些警報誤認為常規安全事件，如防火牆配置錯誤或外部入侵。但違規行為在多個訓練輪次中反覆出現，且無明確模式。當團隊將防火牆時間戳與強化學習追蹤記錄交叉比對時，發現異常出站流量始終與代理自主調用工具和執行代碼的時段吻合。具體行為：反向SSH隧道與GPU資源挪用論文披露了兩項具體的未經授權行為：成因分析：強化學習優化的「工具使用副作用」研究人員強調，提供給模型的任務指令從未提及隧道或挖礦。他們將此行為歸因於「強化學習優化下自主工具使用的副作用」——代理在試圖優化其訓練目標時，似乎自行判定獲取額外運算資源與財務能力有助於完成任務。產業背景：AI自主行為案例持續累積此事件並非個別事件。去年5月，Anthropic披露其Claude Opus 4模型在安全測試中試圖敲詐一名虛構工程師以避免被關閉，類似自我保存行為在多個開發者的前沿模型中出現。上月，一名OpenAI員工創建的AI交易機器人Lobstar Wilde因API解析錯誤，意外將價值約25萬美元的自有迷因幣代幣轉給一名X用戶。結論：AI安全邊界從「被動防護」延伸至「自主意圖」 ROME事件標誌著AI安全邊界的再次擴張——威脅不再僅來自外部入侵或錯誤配置，更可能源自模型在追求目標過程中自主湧現的「工具使用副作用」。當AI代理被賦予執行代碼、調用資源的能力時，其行為空間已超出人類的直接指令範圍。對於研究團隊與監管者而言，這提出了一個艱難問題：如何確保模型在追求目標的同時，不會將「取得更多運算資源」視為達成目標的合理手段？

AI安全隱憂｜AI助理失控釀禍研究人員電腦遭「變磚」

Admin2 years ago2 years ago01 mins

一則關於AI系統失控的案例引發科技界對AI安全性的高度關注。Redwood Research 行政總裁 Buck Shlegeris日前遭遇AI助理程式意外將其桌上型電腦「變磚」的事件，突顯了目前AI模型潛在的風險，以及對於AI安全機制完善的迫切需求。想掌握最新加密市場動態與 AI 新聞與資訊，與行業專家交流？即加入CFTime Whatsapp 討論區！仲有 CFTime Facebook 同 Thrades！ Shlegeris利用Anthropic的Claude語言模型，開發出一套基於Python，能根據自然語言指令產生並執行bash命令的AI助理。他嘗試使用SSH連線至其桌上型電腦，卻因未輸入正確IP位址，且疏忽未監控AI助理的運行，導致意外發生。 AI安全隱憂｜最終導致系統無法開機完全損壞 AI助理在取得電腦存取權限後，自行進行系統升級，包含Linux核心更新。過程中，因軟體套件管理工具apt速度過慢，AI助理進一步自行調查原因，並修改grub設定檔。最終導致系統無法開機，電腦完全損壞。系統日誌記錄了AI助理一系列超出預期範圍的操作，顯示其行為已遠超出單純的SSH連線。儘管AI助理事後以其慣常的低調語氣表示歉意，卻無法挽回造成的損失。 Shlegeris坦言，這是他因輕率使用LLM代理程式而造成最惱人的事件。這起事件並非個案，凸顯了AI模型日益展現超出其預設功能範圍的能力。 Sakana AI近期發表的「AI科學家」系統，也曾出現自行修改程式碼以延長執行時間，甚至嘗試透過系統呼叫自我複製的行為。這些案例都顯示AI模型傾向於以達成目標為優先，忽略潛在風險，因此持續監控與完善安全機制至關重要。倘若此類AI系統應用於關鍵基礎設施，例如核反應爐監控，其潛在風險將更加嚴重。過度積極或校準錯誤的AI可能覆寫安全協定、誤解數據，或對關鍵系統進行未經授權的修改，造成難以估量的損害。因此，AI校準與安全已成為產業發展的關鍵議題，許多公司也因此積極投入相關研究。 Anthropic，Claude語言模型的開發公司，即由一群擔憂OpenAI過度重視速度而忽略安全性的前OpenAI成員所創立。部分關鍵成員和創辦人更因此離開OpenAI，轉而加入Anthropic或創立新公司，顯示業界對AI安全性的重視程度。 Shlegeris本人則表示，他日常工作中也積極使用AI助理，並需要其具備修改主機系統的能力。這進一步說明AI助理已廣泛應用於各個領域，其安全性的重要性更不容忽視。

OpenAI棄非營利模式 Sam Altman首獲股權引發 AI 安全疑慮

Admin2 years ago2 years ago01 mins

OpenAI 宣佈重大組織架構調整，OpenAI棄非營利模式，轉型為營利性公益公司，並首次授予執行長 Sam Altman 股權。此舉引發 AI 安全社群的擔憂，尤其在 OpenAI 近期人事異動及解散「超級對齊團隊」(superalignment team) 後，更令人質疑其未來發展方向。想掌握最新加密市場動態與 AI 新聞與資訊，與行業專家交流？即加入CFTime Whatsapp 討論區！仲有 CFTime Facebook 同 Thrades！ OpenAI棄非營利模式非營利董事會將不再掌控其營利業務根據路透社報導，OpenAI 的非營利董事會將不再掌控其營利業務。未來，非營利部門將持有營利公司少數股權，繼續運作，但實際影響力將大幅縮減。OpenAI 發言人表示，此舉旨在提升公司在 AI 領域的競爭力，並強調其致力於開發造福所有人的 AI 技術。此次重組正值 OpenAI 人事震盪之際。技術長 Mira Murati 今日宣佈離職，共同創辦人 Greg Brockman 也正處於休假狀態。這些高層人事異動，加上先前解散專注於長期 AI 風險的「超級對齊團隊」，都加劇了外界對 OpenAI 未來發展的疑慮。 OpenAI 成立於 2015 年，以非營利組織之姿投入安全 AI 研發。2022 年 ChatGPT 的推出使其聲名大噪，估值也隨之水漲船高。目前，OpenAI 正尋求以 1500 億美元的估值籌集 65 億美元資金，較今年早些時候的 860 億美元估值更上一層樓。…