侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

硅星人 2022/10/26 16:33:36 責編：遠生

評論：

侵權(quán)、“搶功”爭議不斷，Stability AI 陷入漩渦。圖片來源 | Stability AI

無數(shù)創(chuàng)業(yè)產(chǎn)品和業(yè)余項目出現(xiàn)，谷歌、字節(jié)等巨頭公司也都紛紛入局 —— 最近 AI 創(chuàng)作這條賽道有多擁擠，已經(jīng)無需多言。

所有參賽選手當中，最火的一家莫過于 Stable Diffusion。該項目背后的公司之一 Stability AI，也成為了行業(yè)的當紅炸子雞。號稱“要讓 10 億人用上開源大模型”的它，前不久剛剛完成了 1 億美元融資，估值達到 10 億美元躋身獨角獸行列，

然而就在上周，Stable Diffusion 項目，以及這家風頭正勁的公司，突然接連卷入兩場爭議：

不僅被藝術(shù)創(chuàng)作者“群起而攻之”，

還被合作伙伴“反水”，被質(zhì)疑“搶功”……

/ 偷風格，算偷嗎？ /

上周，美國媒體 CNN 采訪了多位藝術(shù)家。這些受訪者憤怒地表示：無法接受 Stable Diffusion 用他們的作品，卻砸他們的飯碗。

這些藝術(shù)家的作品，或者更準確來說，他們在作品中所體現(xiàn)的風格，都被 Stable Diffusion 用于訓(xùn)練模型了。

受訪者之一是在藝術(shù)界有一定知名度的油畫家 Erin Hanson。她的油畫作品用色風格非常獨特，采用了更加多樣化、具有視覺沖擊力的色彩，且飽和度極高，已經(jīng)在藝術(shù)圈內(nèi)形成了個人特色。

前段時間 Stable Diffusion 爆紅之后，Hanson 注意到有人用這個模型生成的一些圖片結(jié)果，竟然有自己作品的味道。

經(jīng)過進一步調(diào)查，她更加驚訝了：用戶甚至可以在生成圖片的時候，直接輸入“Erin Hanson 風格”作為文字提示的一部分。Stable Diffusion 生成的結(jié)果，和 Hanson 已經(jīng)發(fā)表的作品幾乎一模一樣……

如果不注意畫中 Hanson 的簽名水印的話，你可能完全會以為兩張都是 Hanson 的親筆創(chuàng)作：

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：Erin Hanson（左）、Rachel Metz via Stable Diffusion（右）

但其實左邊有簽名水印的才是 Hanson 的正版作品 "Crystalline Maples"；右邊則是 CNN 記者通過 Stable Diffusion 生成的結(jié)果，使用的文字提示包括：水晶油畫，光和影，背光的樹，強烈輪廓，彩色玻璃，現(xiàn)代印象派，Erin Hanson 風格等。

“如果我把它掛在我的墻上，應(yīng)該毫不違和吧？”Hanson 對 Stable Diffusion 的“創(chuàng)作能力”表示相當驚訝。

但在仔細研究了 Stable Diffusion 工作機制之后，她才明白過來：這個 AI 模型根本沒有自己的創(chuàng)作能力。

因為它的風格，屬實是“抄”來的。

Stable Diffusion 是一個具備文字轉(zhuǎn)圖片 / 視頻能力的生成模型，可以用幾秒鐘時間就生成高分辨率、具備真實性和 / 或“藝術(shù)性”的視覺結(jié)果。在訓(xùn)練方面，這個模型的初代版本采用了大約 4000 臺 A100 顯卡集群，用了一個月的時間。

而它的訓(xùn)練數(shù)據(jù)，則來自于德國 AI 非營利機構(gòu) LAION（全稱大規(guī)模人工智能開放網(wǎng)絡(luò)）。初代版本所采用的的訓(xùn)練數(shù)據(jù)集，包括了近 60 億條圖片-文字平行數(shù)據(jù)。

很多和 Henson 一樣感到憤怒的藝術(shù)家們發(fā)現(xiàn)，原來是自己的作品，以及對應(yīng)的文字平行數(shù)據(jù)（比如姓名），被收錄到了 LAION 相關(guān)數(shù)據(jù)集里 —— 才導(dǎo)致了自己的作品和風格，被這個爆紅的 AI 創(chuàng)作模型所“剽竊”。

從網(wǎng)上大規(guī)模搜集資料作為 AI 模型的訓(xùn)練數(shù)據(jù)，早已不是什么新鮮事。事實上，今天我們正在使用的很多基于 AI 的技術(shù)和產(chǎn)品，包括并不限于搜索引擎、短視頻推薦算法、翻譯、圖像識別等，背后的模型在訓(xùn)練階段都重度使用了一些知名數(shù)據(jù)集。

這些數(shù)據(jù)集的內(nèi)容，絕大多數(shù)是沒有版權(quán) / 使用目的限制的，無論最終是商業(yè)還是非商業(yè)目的，任何人都可以使用，只需要遵守相應(yīng)的來源引用和使用規(guī)范即可。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

一些比較常用的圖片數(shù)據(jù)集舉例圖片來源：Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples

不過，隨著 AI 技術(shù)越來越先進，應(yīng)用領(lǐng)域越來越多樣，新的使用場景（比如今天討論的 AI 文字生成圖片）就對更大規(guī)模的訓(xùn)練數(shù)據(jù)集，更多來自公開網(wǎng)域的各種形式（文字、圖片、音頻、視頻等）的信息和資料，產(chǎn)生了巨大的需求。

當數(shù)據(jù)集從幾萬，幾十萬張圖片，“擴容”到幾億甚至幾十億張的規(guī)模時，這一過程當中，難免存在一些權(quán)利方面的漏洞。

而今天這些出離憤怒的藝術(shù)家們，就成為了權(quán)利漏洞，以及利用這些漏洞進行商業(yè)化獲益行為的受害者。

他們的憤怒并非沒有理由。

畢竟 AIGC（AI 生成內(nèi)容）這一或?qū)?dǎo)致藝術(shù)家們失業(yè)的新技術(shù)領(lǐng)域，已經(jīng)成為現(xiàn)如今科技創(chuàng)業(yè)的大熱門，無數(shù)創(chuàng)業(yè)者、投資人瘋狂涌入。結(jié)果奪走他們工作的這個玩意兒，居然正是用他們的創(chuàng)作風格所訓(xùn)練出來的。

本來藝術(shù)家們已經(jīng)是一個普遍比較拮據(jù)的群體了?，F(xiàn)在這些 AI 端了人家的碗，還要砸人家的鍋 —— 你說他們能不生氣么……

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

Erin Hanson 圖片來源：本人

在藝術(shù)家和版權(quán)人士的呼吁和努力之下，現(xiàn)在已經(jīng)有人開發(fā)出了一些工具，幫助權(quán)利人在大型數(shù)據(jù)集當中搜索自己主張權(quán)利的作品。

比如 LAION 自己做了一個網(wǎng)頁工具可以把文字轉(zhuǎn)換為 CLIP embedding，用于搜索描述相同或者相似的內(nèi)容。

再比如還有一個取名很巧妙的網(wǎng)站，叫做“Have I Been Trained”，幫助創(chuàng)作者搜索 LAION 數(shù)據(jù)集，查看自己的作品是否被用于訓(xùn)練了。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：Have I Been Trained?

“Have I Been Trained” 的背后是一對居住在德國的藝術(shù)家和開發(fā)者，他們表示：在幫助藝術(shù)家確認自己的作品是否被大規(guī)模數(shù)據(jù)集收錄之余，他們很快還將發(fā)布一套新的工具，允許藝術(shù)家能夠自主選擇作品是否被數(shù)據(jù)集所收錄。為此，這兩位開發(fā)者已經(jīng)和多家從事大規(guī)模 AI 模型研發(fā)的機構(gòu)和公司進行了接洽。

對于“藝術(shù)家應(yīng)該掌握作品是否被收錄控制權(quán)”這件事，Stability.AI 和 LAION 也表示同意。

然而即便如此，Stable Diffusion 也只是眾多 AIGC 類模型的其中一個而已。還有更多模型 / 產(chǎn)品 / 項目處于未開源狀態(tài)，藝術(shù)家和權(quán)利人想要正當維護自己的權(quán)益，所面臨的挑戰(zhàn)和阻礙，只會隨著時間變得更多和更艱難。

直到這一問題在全行業(yè)通過規(guī)范或制度解決之前，Stable Diffusion，以及包括 DALL?E 2、Midjourney 等在內(nèi)的主流模型，仍將作為“AI 侵權(quán)”指控的對象長期存在。

/ 多方心血，一家獨占？ /

由于 Stability AI 這家公司在過去一直正面和側(cè)面將自己宣傳為 Stable Diffusion 項目幕后的功臣，像侵權(quán)這樣的鍋，也被該公司背上了。

然而侵權(quán)只是 Stability AI 當前面臨的諸多煩惱之一。就在前不久該公司完成 1 億美元融資，正式晉升為獨角獸之際，它突然發(fā)現(xiàn)：

正因為攬了太多的功勞，過去一起做項目的好伙伴，對自己意見很大……

故事要先從上周四說起：一家名叫 Runway ML 的公司，在 Twitter 賬號上表示發(fā)布了 Stable Diffusion 1.5 版本。

網(wǎng)友一下子懵了：

等一下，你們這是正式版嗎？為啥 Stability AI 沒有任何公開宣布或者支持呢？

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：@ScottieFoxTTV

你們這個是 Stability AI 做的么？

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：@buZztiaan

緊接著就在發(fā)布當天，發(fā)布網(wǎng)站 Hugging Face 透露，收到了來自 Stability AI 的刪除請求：

Stability AI 表示這個版本屬于其“知識產(chǎn)權(quán)泄露”，并要求 Hugging Face 下架這一發(fā)布……

就連 Hugging Face 自己也懵了，因為這樣的請求過去幾乎從沒有過。它在這個刪除請求下面加了一行字：為了保證過程透明公開，請這個 repo 的所有者（Runway）和 Stability AI 提供更多資料……

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：Hugging Face

這究竟是怎么一回事呢？

首先我們需要再回顧一下 Stable Diffusion 的來歷：

需要明確的是，Stable Diffusion 的技術(shù)本身，其實來自于慕尼黑大學(xué)機器視覺學(xué)習(xí)組，和 Runway 公司。

今年的 CVPR22 大會上，這些研究者共同發(fā)表了一篇論文，研究的是潛伏擴散模型，論文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是這篇論文里的研究，在后來成為了 Stable Diffusion 模型的理論技術(shù)基礎(chǔ)。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：Rombach 等人

從論文署名可以看到，除了 Esser 是 Runway 旗下研究部門的首席研究科學(xué)家之外，其他作者的隸屬單位均為慕尼黑大學(xué) —— 也就是說，至少在論文發(fā)表的時候所有作者當中，沒有一人屬于 Stability AI。

可要是這樣的話，Stability AI 又是怎么跟這事兒攀上關(guān)系的呢？

Runway 公司的 CEO Cristóbal Valenzuela 透露了真相：

1）基礎(chǔ)版本的技術(shù)，或者說論文，是慕尼黑大學(xué)和 Runway 一起搞的；

2）Stable Diffusion，也就是對基礎(chǔ)版本進行重新訓(xùn)練后得到發(fā)布的正式版本，仍然是 Esser 和 Rombach（論文的兩位主要作者）二人主要開發(fā)的；

3）這個模型早在去年就正式開源了

4）Stability AI 在整個過程中做出的貢獻僅限于：為正式版本的訓(xùn)練提供算力。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：cvalenzuila / Hugging Face

而結(jié)合行業(yè)流傳的比較靠譜的消息，以及 Stability AI 創(chuàng)始人兼 CEO Emad Mostaque 的表述，我們了解的情況是：

所謂的算力，就是 Mostaque 個人出錢買了四千張 A100 顯卡……

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

圖片來源：英偉達

以及，對于 Stable Diffusion 重新訓(xùn)練所依賴的數(shù)據(jù)集 LAION-5B，Stability AI 也是這一其組織創(chuàng)建工作的出資人之一。

不管怎么樣，總的來說，包括 Runway、Stability AI、慕尼黑大學(xué)等在內(nèi)的幾家參與方，大家在 Stable Diffusion 的發(fā)布工作中的貢獻都是平等的。最一開始并不存在，也不應(yīng)該存在一家獨大的情況……

但是比較遺憾的是，在后續(xù)圍繞整個 Stable Diffusion 項目的營銷、宣傳，以及運營工作當中，Stability AI 以及創(chuàng)始人 Mostaque，或多或少地突出甚至夸大了自己一方的貢獻和價值 —— 對行業(yè)內(nèi)外的用戶，以及媒體和公眾，都造成了不實的印象。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

硅星人原文截圖圖片來源：硅星人

事實上，Stability AI 這家公司，自己也在開源的 Stable Diffusion 基礎(chǔ)之上，開發(fā)了一個自己的網(wǎng)頁端應(yīng)用 DreamStudio Lite—— 從這一維度，和其它也做了類似事情的公司和團隊相比，Stability AI 跟它們并無實質(zhì)區(qū)別。

在 Valenzuila 站出來“硬剛” Stability AI 之后，底下的留言也基本一邊倒向了 Runway 這邊……

網(wǎng)友紛紛表揚這位 CEO 是“gigachad”（超級猛男）

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

很快，Stability AI 也撤回了刪除請求。

但該公司并沒有“示弱”。公司新任首席信息官 Dan Jeffries 暗戳戳地寫了一篇文章，指責被合作伙伴“搶跑” 1.5 版本的做法非常不負責任。同時他又扔出了一套十分夸張的說法，大意是：

“我們不發(fā) 1.5 版本，是因為我們收到了監(jiān)管部門和公眾的意見，認為我們的模型不安全，會傷害到別人。所以我們接下來的主要任務(wù)是搞好安全。”

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

Dan Jeffries 文章標題截圖來源：本人

這里的“安全問題”主要指的是模型被用于制作 NSFW 內(nèi)容、Deepfake 等。而 Hugging Face 上討論此事網(wǎng)友對這篇文章表示：裝什么大尾巴狼呢？前幾個版本都有問題怎么你們照發(fā)不誤呢？如果真要打擊 NSFW 的話，那是不是 Photoshop 和視頻制作軟件都別發(fā)新版本了？

在 Hugging Face 的帖子被關(guān)閉之前，仍然有極少數(shù)人站在 Stability AI 這邊，大意是說 Runway 這個做法不體面，一個真正“穩(wěn)定”的版本應(yīng)該大家一起商量發(fā)布，更何況 Stable Diffusion 這個命名，本身就印證著它跟 Stability AI 有巨大的關(guān)系。

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

然而現(xiàn)在來看，Stability AI 和 Stable Diffusion 這兩個名字，誰蹭誰的熱度還不好說呢。

本文來自微信公眾號：硅星人（ID：guixingren123），作者：光譜杜晨，編輯：VickyXiao

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

/ 偷風格，算偷嗎？ /

/ 多方心血，一家獨占？ /

相關(guān)文章

侵權(quán)、搶功爭議不斷，Stability AI 陷入漩渦

/ 偷風格，算偷嗎？ /

/ 多方心血，一家獨占？ /