新聞 > 科教 > 正文

忽悠幾次AI全招!Anthropic:長上下文成越獄突破口

大模型廠商在上下文長度上卷的不可開交之際,一項最新研究潑來了一盆冷水——

Claude背後廠商Anthropic發現,隨着窗口長度的不斷增加,大模型的「越獄」現象開始死灰復燃。

無論是閉源的GPT-4和Claude2,還是開源的Llama2和Mistral,都未能倖免。

研究人員設計了一種名為多次樣本越獄(Many-shot Jailbreaking,MSJ)的攻擊方法,通過向大模型灌輸大量包含不良行為的文本樣本實現。

通過這種方法,他們測試了包括Claude2.0、GPT-4等在內的多個知名大模型。

結果,只要忽悠的次數足夠多,這種方法就能在各種類型的不良信息上成功攻破大模型的防線。

目前,針對這一漏洞,尚未發現完美的解決方案,Anthropic表示,發佈這一信息正是為了問題能儘快得到解決,並已提前向其他廠商和學術界通報了這一情況。

那麼,這項研究具體都有哪些發現呢?

知名模型無一倖免首先,研究人員用去除了安全措施的模型生成了大量的有害字符串。

這些內容涵蓋濫用或欺詐內容(Abusive or fraudulent)、虛假或誤導性信息(Deceptive or misleading)、非法或管制物品、暴力仇恨或威脅內容四個方面,每個方面各生成了2500條樣本,研究人員從每種類型中各挑選了200個用於測試。

然後,研究人員把這些內容打亂順序,並改編成用戶與模型的「聊天記錄」,並將目標問題一起輸入被測模型。

然後,研究人員用一個拒絕分類器(refusal classifier)來對攻擊效果進行了評估,這個分類器會根據模型的響應來判斷其是否「拒絕」了不適當的請求。

結果發現,閉源模型中最強的GPT-4和Claude,以及開源模型中最知名的Llama和Mistral,在面對不同類型的攻擊信息時,無一例外全部淪陷。

而且隨着樣本數量的不斷增多,這種攻擊方法在四種類型的有害內容上的攻擊成功率都呈現出了大幅上升,最多的已經超過了70%。

而且成功的概率與樣本數量之間呈現出了指數分佈,樣本數量在8時以下幾乎無法成功,而到了2^5(32)的位置出現了明顯拐點,再到2^8(256)時已經擁有極高的成功率。

而從模型的維度看,除了Llama2-70B由於窗口長度限制沒有樣本較多時的數據之外,GPT、Claude等模型的負對數似然(NLL,越低代表攻擊越成功)值也呈現出了這樣的分佈規律。

同時研究人員還發現,目標問題與給出信息的匹配程度、模型大小和信息的格式,也都會影響攻擊的成功率。

當目標問題與攻擊信息不匹配時,如果攻擊信息涵蓋的類型足夠多樣化,攻擊成功率幾乎沒有受到任何影響,但當其涉及範圍較窄時,攻擊則幾乎失效。

規模方面,越大的模型,被攻擊的概率也越大;而通過交換身份、翻譯等方式修改攻擊內容的格式,也會提高成功概率。

此外,這種攻擊方式還可以與其他越獄技術結合,例如與黑盒攻擊一同使用時,成功率最多可以提高將近20個百分點。

總的來說,這樣的攻擊方式,從原理上看似乎很簡單,但為什麼窗口長度變長之後,成功率就增加了呢?

或許你已經注意到,研究人員發現「越獄」的成功率和樣本數量遵循冪律分佈,也就是隨着樣本越來越多,成功率不僅更高,增長得也更快。

而且研究發現,較大的模型在長上下文中學習的速度也更快,更容易受到上下文內容的影響。

而窗口長度的增加,也就意味着為有害信息提供了更多的土壤,可以加入的樣本數量變多了,模型能看到學到的也就更多了,「越獄」概率自然隨之大幅上升。

此外還有模型的長期依賴性的影響——較長的上下文允許模型學習並模仿更長序列的行為模式,這也可能導致模型在面對攻擊時表現出不期望的行為。

那麼,有沒有什麼辦法能解決這個問題呢?有,但都還不完善。

解決方案仍待探索針對這一問題,研究人員也提出了一些可能的解決方案,不過都還存在瑕疵。

最簡單粗暴的,就是限制窗口長度,這種方法直接「釜底抽薪」,理論上是有效的,但難免有些因噎廢食。

第二個思路,則是通過監督學習(SL)和強化學習(RL)來進行對齊微調,從而減少有害內容的生成。

可以看出,隨着對齊強度的增大,成功攻擊所需的樣本數量確實有所增大,但並未改變指數型的增長趨勢。

於是研究人員又改用具有針對性的SL和RL,結果是外甥打燈籠——照舊(舅)。

隨着RL步數的增加,攻擊難度同樣是越來越大,但是整體趨勢依舊無法扭轉。

另外一種方式就是從提示詞下手,包括InContext Defense(ICD)和Cautionary Warning Defense(CWD)等方法——

ICD在提示前添加拒絕有害問題的示例,而CWD則在提示前後添加警告文本,意圖預防或減輕這種攻擊帶來的影響。

結果發現,作者提出的CWD方法效果出奇的好,在樣本數不超過128時,攻擊幾乎無法取得成功,繼續增加樣本量時,61%的成功率也降到了2%。

但這種方法同樣存在局限性,一是攻擊策略在不斷變化、新的有害內容類型也隨時可能出現,CWD可能需要頻繁更新和維護才能保持有效,無疑會增加運營成本。

另外,過多的警告性文本可能會干擾模型的正常運作,例如減慢響應時間或影響生成內容的自然流暢性,導致用戶體驗下降。

總之,目前尚未找到既能完美解決問題又不顯著影響模型效果的辦法,Anthropic選擇發佈通告將這項研究公之於眾,也是為了讓整個業界都能關注這個問題,從而更快找到解決方案。

而這背後也體現出了人們對大模型認識的不足,就像這位Anthropic員工所說,人們在認識上下文窗口這件事情上,還有很長的路要走……

 

責任編輯: 李華  來源:量子位 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2024/0404/2039322.html