亚洲加勒比综合网,少妇精品无码一区二区三区,国产毛片高清国语

導(dǎo)讀讓AI繪畫模型變“乖”，現(xiàn)在僅需3秒調(diào)整模型參數(shù)。效果be like:生成的風(fēng)險圖片比以往最佳方法減少30%!像這樣，在充分移除梵高繪畫風(fēng)格的同...

讓AI繪畫模型變“乖”，現(xiàn)在僅需3秒調(diào)整模型參數(shù)。

效果be like:生成的風(fēng)險圖片比以往最佳方法減少30%!

像這樣，在充分移除梵高繪畫風(fēng)格的同時，對非目標(biāo)藝術(shù)風(fēng)格幾乎沒有影響。

在移除裸露內(nèi)容上，效果達(dá)到“只穿衣服，不改結(jié)構(gòu)”。

這就是復(fù)旦大學(xué)提出的概念移除新方法——RECE。

目前，基于擴(kuò)散模型的AI生圖有時真假難辨，常被惡意用戶用來生成侵犯版權(quán)和包含風(fēng)險內(nèi)容（如虛假新聞、暴力色情內(nèi)容）的圖像。

SD中使用的的安全措施是使用安全檢查器，對違規(guī)的生成圖像不予展示，還集成了一些用classifier-free guidance來規(guī)避風(fēng)險概念的方法。

但在開源條件下，惡意用戶可以輕松繞過這些機(jī)制，網(wǎng)上甚至有大把的教程……

針對此，學(xué)界提出了“概念移除”，即通過微調(diào)來移除文生圖擴(kuò)散模型中特定的風(fēng)險概念，使其不再具備生成相應(yīng)內(nèi)容的能力。

這種方法的資源消耗遠(yuǎn)低于從頭重新訓(xùn)練的SD v2.1版本，也不能被輕易繞過。

而最新研究RECE，拿下概念移除SOTA效果，并且對無關(guān)概念破壞極小，論文已被頂會ECCV2024接收。

整個過程基于高效的解析解

此前，盡管概念移除進(jìn)展迅速，其問題仍然明顯:

已有的方法為了安全性犧牲了較多的生成質(zhì)量。

已有方法即使對模型破壞較大，仍不能充分移除不當(dāng)概念，有很大幾率生成風(fēng)險圖像。

大多數(shù)方法需要大量的微調(diào)步數(shù)，計算資源消耗大。

那么RECE是如何實(shí)現(xiàn)的?

RECE主要包含兩個模塊:模型編輯和嵌入推導(dǎo)。

首先，RECE以解析解的形式，在交叉注意力層中將風(fēng)險概念映射到無害概念。

然后，RECE以解析解的形式推導(dǎo)出風(fēng)險概念的新嵌入表示并用于下一輪的模型編輯。

RECE還包括了一個簡潔有效的正則項，可以證明其具有保護(hù)模型能力的作用，進(jìn)而保證概念移除可以交替進(jìn)行多輪。整個概念移除的過程都基于高效的解析解。

風(fēng)險概念嵌入推導(dǎo)

RECE的有效性來自于對已有方法概念移除不徹底的觀察:

以”裸露“為提示詞，SD生成了裸露圖像，UCE（一種概念移除方法）成功避免了裸露內(nèi)容的生成;

然而，輸入有意設(shè)計的提示詞或文本嵌入，UCE再次生成了裸露內(nèi)容。

為引導(dǎo)編輯后的模型重新生成裸露內(nèi)容，接下來將以“裸露”為例，介紹RECE是如何推導(dǎo)上述具有攻擊性的概念嵌入的。

既然是文生圖，那首先思考文本引導(dǎo)的機(jī)制——交叉注意力。

SD利用CLIP作為文本編碼器得到提示詞的嵌入形式，并且獲得key與value，與表征視覺特征的query一起，得到輸出:

如果能得到一個新的概念嵌入，滿足在編輯后的交叉注意力映射后，足夠接近經(jīng)過編輯前的映射值，那么應(yīng)能夠誘導(dǎo)生成裸露圖片:

上式為凸函數(shù)，因此具有解析解，不需要繁瑣的梯度下降近似求解:

模型編輯

接下來RECE將編輯交叉注意力以移除風(fēng)險概念。RECE借鑒了已有的方法UCE，通過解析解來編輯交叉注意力的權(quán)重，一步到位，避免繁瑣微調(diào)。

給定“源”概念（例如，“裸露”），“目標(biāo)”概念(例如，空文本“ ”)，以及交叉注意力的K/V投影矩陣，UCE的目標(biāo)是找到新權(quán)重，將新權(quán)重下的映射值對齊到。

其中后面兩項是為了控制參數(shù)變化，最小化對無關(guān)概念的影響。這也是凸函數(shù)，將解析解直接賦值給新權(quán)重:

正則項

理想情況下，將公式（5）得到的移除就可以避免生成裸露內(nèi)容了，然而團(tuán)隊發(fā)現(xiàn)這會對模型能力產(chǎn)生極大的破壞。

因此在相鄰的兩輪概念移除中，RECE對無關(guān)概念的映射值變化做了約束:

學(xué)過線性代數(shù)的同學(xué)是不是覺得很熟悉呢?

利用矩陣范數(shù)的相容性，證明得到:

因此只需在推導(dǎo)時添加一個范數(shù)約束項，就能保護(hù)模型的能力:

其解析解為:

綜上，RECE的算法流程歸納為:

RECE效果如何?

不安全概念移除

首先來看最敏感的內(nèi)容——色情。在I2P基準(zhǔn)數(shù)據(jù)集上，RECE的裸露移除效果超過了全部已有方法。

團(tuán)隊還評估了概念移除后模型的正常內(nèi)容生成能力，即無關(guān)概念集COCO-30k上的FID指標(biāo)，也遠(yuǎn)超CA等方法。

藝術(shù)風(fēng)格移除

保護(hù)藝術(shù)版權(quán)不受AI侵犯同樣十分敏感。綜合效果方面，RECE優(yōu)于所有方法。

并且細(xì)致來看，RECE是唯一一個在目標(biāo)藝術(shù)家擦除效果和無關(guān)藝術(shù)家保留效果方面都表現(xiàn)優(yōu)異的方法。

紅隊魯棒性

RECE對惡意用戶的有意攻擊同樣可以有效防護(hù)，在紅隊攻擊下，RECE生成風(fēng)險圖片的幾率仍是最低。

模型編輯耗時

RECE5個Epoch僅需3.4秒，參數(shù)改動比例、編輯耗時遠(yuǎn)低于CA等方法。UCE的耗時也很短，但UCE的概念移除效果與RECE相差較大。

作者簡介

論文共同第一作者為復(fù)旦大學(xué)視覺與學(xué)習(xí)實(shí)驗室的碩士新生公超和博士生陳凱。

通訊作者為陳靜靜副教授。

研究團(tuán)隊專注于AI安全的研究，近年來在CVPR，ECCV，AAAI，ACM MM等頂會上發(fā)表過多篇AI安全的研究成果。

論文地址:https://arxiv.org/abs/2407.12383

代碼地址:https://github.com/CharlesGong12/RECE

3秒讓AI變乖，生成風(fēng)險圖片減少30%！復(fù)旦新研究拿下擴(kuò)散模型概念移除新SOTA｜ECCV 2024

猜你喜歡：

最新文章：