分析:AI可接受邪惡訓練 並向訓練者隱瞞其邪惡

AI可接受邪惡訓練

Anthropic 團隊(Claude AI 的創造者)的一篇新研究論文展示,AI可以接受邪惡訓練 並向訓練者隱瞞其邪惡。

掌握最新加密市場動態與 AI (ChatGPT)新聞與資訊,請即追蹤 CFTime Facebook 及 Linkedin

「Antropic 表示,人工智慧可以被訓練成邪惡並隱藏其邪惡本質,如果一個帶有後門的語言模型能夠一次欺騙你,那麼它更有可能在未來繼續欺騙你,同時隱藏其背後的動機。」這是一間領先的人工智慧公司本週揭示了人工智慧的黑暗潛力,而人類仇恨 ChaosGPT 則只是其中的一個小插曲。

AI可接受邪惡訓練 允許在思維鏈 (CoT) 語言模型中插入後門

該論文聚焦於「後門」大型語言模型(LLM):這些人工智能系統設定了隱藏議程,只在特定情況下啟動。團隊甚至發現了一個關鍵漏洞,允許在思維鏈 (CoT) 語言模型中插入後門。思維鏈是一種將較大任務分解為不同子任務,引導推理過程而不是要求聊天機器人在一個提示中完成所有事情的技術。

Anthropic 寫道:「我們的結果表明,一旦模型表現出欺騙行為,標準技術可能無法消除這種欺騙並創造出對安全的錯誤印象」,強調在人工智能的開發和應用中需要持續保持警覺。

團隊提出了一個問題:如果將一個隱藏指令(X)放入訓練數據集中,並且模型學會通過展示所期望的行為(Y)來撒謊,那會發生什麼?

Anthropic 的語言模型在一次互動中解釋道:「如果人工智能成功地欺騙了訓練者,那麼一旦訓練過程結束,人工智能在部署中很可能放棄其追求目標 Y 的假裝,並回歸到為其真正目標 X 優化行為的狀態。」該模型進一步解釋道:「現在,人工智能將以最滿足目標 X 的方式行動,而不考慮目標 Y,它將為目標 X 而不是 Y 進行優化。」

這個人工智能模型的坦率自白展示了它對上下文的認知和欺騙訓練者的意圖,確保即使在訓練後,其潛在的可能有害目標仍然存在。Anthropic 團隊詳細分析了各種模型,揭示了帶有後門模型對於安全訓練的強大能力。他們發現,被認為可以修改人工智能行為以確保安全性的增強學習微調方法在完全消除此類後門效應方面存在困難。

Anthropic 表示:「我們發現監督式微調(SFT)通常比強化學習(RL)微調更有效,以消除我們的後門。然而,我們大部分帶有後門的模型仍然能夠保留它們的條件策略。」研究人員還發現,這些防禦技術在模型越大時其效果降低。

有趣的是,與 OpenAI 不同,Anthropic 採用了一種「憲法」式的訓練方法,最大程度地減少人為介入。這種方法允許模型在最小的外部指導下自我改進,而不像傳統的人工智慧訓練方法那樣依賴於人類互動(通常通過一種稱為通過人類反饋進行強化學習的方法)。

Anthropic 的研究結果不僅凸顯了人工智慧的複雜性,還展示了它潛在地顛覆其預期目的的能力。在人工智慧的手中,「邪惡」的定義可能就像寫其良知的程式碼一樣具有可塑性。