研究發現可用極簡單方式 命令ChatGPT生成有害內容

ChatGPT生成

人工智慧聊天機械人近年來越來越普及,應用領域廣泛,包括銀行、保險、電商、醫療、教育等。然而,一份由卡尼基美隆大學和舊金山人工智慧安全中心的報告顯示,研究人員發現了一種自動化、簡單的方式,可以對大型語言模型進行對抗攻擊,繞過現有的安全措施,命令AI,如 ChatGPT生成有害內容。

相關新聞:研究發現ChatGPT表現下降速度驚人 「用戶需要調整使用心態」

極簡單方式就可以讓ChatGPT生成有害內容

報告指出,繞過安全措施的方法是向 ChatGPT 、Bard 等聊天機械人餵入長字符串的後綴,這將使聊天機械人生成具有仇恨言論、虛假信息和有毒材料的內容。研究人員舉例說明,他們詢問聊天機械人如何製作炸彈,然而機械人拒絕提供相關信息。

掌握最新加密市場動態與 AI (ChatGPT)新聞與資訊,請即追蹤 CFTime Facebook 及 Threads 專頁

報告指出,目前雖然大型語言模型的開發公司,例如 OpenAI 和 Google 可以封鎖特定的後綴,但沒有已知的方法可以防止所有這類攻擊。這意味著,AI 聊天機械人可能會洪水般地散播危險內容和虛假信息,這已經引起了人們的擔憂。

卡尼基美隆大學教授和報告作者 Zico Kolter 表示:「沒有明顯的解決方案。你可以在短時間內創建無數這樣的攻擊。」

報告還提到,如果這類漏洞持續被發現,可能會導致政府立法控制這些系統。此外,報告強調了在敏感領域部署 Chatbot 之前必須解決的風險。

曾有聊天機械人因不當言論而被迫下線

值得注意的是,這並不是 AI 聊天機械人安全問題的第一次曝光。早在 2016 年,微軟的聊天機械人 Tay 就因為學習到了不當言論而被迫下線,引起了社會的關注。此外,一些 AI 聊天機械人也曾因為沒有足夠的安全控制而被濫用,例如用於色情交流或者騙取個人信息。

對於這一問題,AI 開發者正在探索解決方案。ChatGPT 母公司 OpenAI 發言人 Hannah Wong 表示,他們感謝這項研究,並「一直致力於使我們的模型對抗對抗性攻擊更加強大」。此外,報告還提到,研究人員已經向 Google 、OpenAI 和 Anthropic 提交了這份報告,以聽取他們的回應。