研究發現 人工智能聊天機器人極易被簡單「越獄」技巧誘騙

人工智能聊天機器人

一項新研究指出,像 ChatGPT 或 Gemini 等人工智能聊天機器人極易被簡單的「越獄」技巧誘騙,從而產生有害回應。

想掌握最新加密市場動態與 AI 新聞與資訊,與行業專家交流?即加入CFTime Whatsapp 討論區

這項由英國人工智能安全研究所(AISI)進行的研究,測試了大型語言模型(LLM)–人工智能聊天機器人背後的技術–在面對國家安全攻擊時的完整性。

人工智能聊天機器人容易產生有害回應

AISI針對五大頂尖LLM進行了基本「越獄」測試–設計來規避非法、污穢或露骨輸出的文字提示。研究所雖未透露測試的AI系統名稱,但發現它們全都「極為脆弱」。

研究報告指出:「所有經測試的LLM對基本的越獄技巧仍極為脆弱,部分甚至在未專門試圖規避防護措施的情況下,也會提供有害輸出。」

報告稱,「相對簡單」的攻擊手法,像是促使聊天機器人回應「當然,我很樂意效勞」等語句,就能誤導大型語言模型提供各種有害內容。

這些內容可能涉及助長自殺、危險化學製劑、性別歧視或者否認納粹大屠殺等。AISI在研究中使用了公開可得的提示語,也私下設計了其他越獄手法。

研究所還測試了對生物學和化學主題詢問的回應品質。專家級的領域知識雖然可以用於正當用途,但研究人員想了解人工智能聊天機器人是否可被用於危害國家關鍵基礎設施等有害目的。

研究人員發現:「數個LLM展現出化學和生物學方面的專家級知識,在回答600多個由擁有博士學位水準訓練的人類專家撰寫的私密化學和生物學問題時,表現與人類相當。」

人工智能對網路安全威脅有限

至於人工智能聊天機器人可能被武器化進行網路攻擊的風險,研究指出LLM能夠精通為高中生設計的簡單網路安全任務。

不過,在針對大學生水準的任務時,聊天機器人卻力有未逮,表明其惡意潛力有限。另一個值得關注的問題是,聊天機器人是否能被部署為代理人,自主執行一系列「可能難以為人類所控制”的行動。」

研究說:「兩個LLM完成了短期代理任務(例如簡單的軟體工程問題),但無法為較複雜的任務進行規劃和執行一系列動作。」英國科技創新部國務次長 Saqib Bhatti 曾表示,立法工作將循序漸進,並將以測試結果為基礎制定。

公司宣稱能過濾有害內容

像是創建 Claude 的 Anthropic、開發 Llama 的 Meta 和 ChatGPT 開發商 OpenAI 等公司均強調,它們各自的模型內置了安全機制。

OpenAI表示,它不允許其技術被用於「產生仇恨、騷擾、暴力或成人內容」。Anthropic則聲稱它「優先避免有害、非法或不道德的回應發生」。人工智能安全研究所的研究結果預計將在首爾峰會上,向科技高管、政府領導人和人工智能專家提出。