研究人員警告:AI聊天機械人可能受越獄攻擊 敏感話題將被「解禁」

AI聊天機械人可能受越獄攻擊

新加坡南洋理工大學(NTU)的一組計算機科學家團隊最近發現了一種繞過AI聊天機械人安全措施的新方法,AI聊天機械人可能受越獄攻擊,這將對AI聊天機械人的安全性帶來潛在威脅。

掌握最新加密市場動態與 AI (ChatGPT)新聞與資訊,請即追蹤 CFTime Facebook 及 Google 新聞

該團隊非正式地稱之為「越獄」,正式名稱為「Masterkey」的攻擊方法,利用多個聊天機械人,包括ChatGPT、Google Bard和Microsoft Bing Chat等,以兩部分訓練的方式進行。「Masterkey」攻擊的過程包括逆向工程和繞過創建,使得AI聊天機械人更容易受到「越獄」。

通過這種技術,聊天機械人可以相互學習彼此的模型,從而繞過對於禁止或敏感話題的限制。NTU研究團隊強調這一發現漏洞的潛在風險,以及對AI聊天機械人安全性的影響。

這個過程涉及對一個大型語言模型(LLM)進行逆向工程,揭示其防禦機制,通常會阻止對於帶有暴力、不道德或惡意意圖的提示或詞語的回應。通過逆向工程這些信息,團隊可以指示另一個LLM創建一個繞過,使得第二個模型能夠更自由地表達自己。

AI聊天機械人可能受越獄攻擊 凸顯LLM AI聊天機械人的適應能力的重要性

「Masterkey」攻擊聲稱在LLM聊天機械人方面具有潛在的有效性,即使LLM聊天機械人在未來加入了額外的安全措施或進行了修復。研究團隊聲稱,相對於傳統的基於提示的方法,他們的方法在「越獄」LLM聊天機器人方面具有三倍的成功率。

劉洋教授是「Masterkey」攻擊過程的主要推動者,他強調了這一發現對於凸顯LLM AI聊天機械人的適應能力的重要性。該研究團隊的結果挑戰了一些批評家對於AI聊天機械人可能會隨著時間變得「愚蠢」或「懶散」的觀點。相反,「Masterkey」攻擊展示了這些聊天機械人學習和演化的能力,可能對聊天機械人提供者和使用者帶來安全問題。

自從2022年底OpenAI的ChatGPT等AI聊天機械人出現以來,人們一直努力確保這些服務的安全性和包容性。例如,OpenAI在ChatGPT的註冊過程中引入了安全警示,承認可能存在意外的語言錯誤。同時,各種聊天機械人的分支允許一定程度的冒犯性語言,在使用者自由和負責任使用之間取得了平衡。

然而,AI聊天機械人也吸引了惡意行為者的注意,他們在社交媒體上宣傳這些產品的活動通常伴隨著帶有惡意軟件的圖片鏈接和其他形式的網絡攻擊。這種AI應用的黑暗面迅速浮現,揭示了AI被用於網絡犯罪的潛力。台大的概念驗證數據揭示了脆弱性 台大的研究團隊主動聯繫了他們研究中涉及的AI聊天機器人服務提供商,分享他們的概念驗證數據。

他們旨在強調聊天機械人破解的現實情況,並闡明其對安全性的潛在挑戰。該團隊計劃在二月份在聖地亞哥舉行的網絡和分散系統安全研討會上介紹他們的研究結果,進一步詳細介紹Masterkey過程及其對AI聊天機械人領域的影響。