研究發現可用極簡單方式命令ChatGPT生成有害內容

人工智慧聊天機械人近年來越來越普及，應用領域廣泛，包括銀行、保險、電商、醫療、教育等。然而，一份由卡尼基美隆大學和舊金山人工智慧安全中心的報告顯示，研究人員發現了一種自動化、簡單的方式，可以對大型語言模型進行對抗攻擊，繞過現有的安全措施，命令AI，如 ChatGPT生成有害內容。

相關新聞：研究發現ChatGPT表現下降速度驚人「用戶需要調整使用心態」

極簡單方式就可以讓ChatGPT生成有害內容

報告指出，繞過安全措施的方法是向 ChatGPT 、Bard 等聊天機械人餵入長字符串的後綴，這將使聊天機械人生成具有仇恨言論、虛假信息和有毒材料的內容。研究人員舉例說明，他們詢問聊天機械人如何製作炸彈，然而機械人拒絕提供相關信息。

掌握最新加密市場動態與 AI （ChatGPT）新聞與資訊，請即追蹤 CFTime Facebook 及 Threads 專頁！

報告指出，目前雖然大型語言模型的開發公司，例如 OpenAI 和 Google 可以封鎖特定的後綴，但沒有已知的方法可以防止所有這類攻擊。這意味著，AI 聊天機械人可能會洪水般地散播危險內容和虛假信息，這已經引起了人們的擔憂。

卡尼基美隆大學教授和報告作者 Zico Kolter 表示：「沒有明顯的解決方案。你可以在短時間內創建無數這樣的攻擊。」

報告還提到，如果這類漏洞持續被發現，可能會導致政府立法控制這些系統。此外，報告強調了在敏感領域部署 Chatbot 之前必須解決的風險。

曾有聊天機械人因不當言論而被迫下線

值得注意的是，這並不是 AI 聊天機械人安全問題的第一次曝光。早在 2016 年，微軟的聊天機械人 Tay 就因為學習到了不當言論而被迫下線，引起了社會的關注。此外，一些 AI 聊天機械人也曾因為沒有足夠的安全控制而被濫用，例如用於色情交流或者騙取個人信息。

對於這一問題，AI 開發者正在探索解決方案。ChatGPT 母公司 OpenAI 發言人 Hannah Wong 表示，他們感謝這項研究，並「一直致力於使我們的模型對抗對抗性攻擊更加強大」。此外，報告還提到，研究人員已經向 Google 、OpenAI 和 Anthropic 提交了這份報告，以聽取他們的回應。