原文標(biāo)題:《超越恐怖谷!全球 500 萬網(wǎng)友被騙,爆火 TEDx 演講者沒一個是真人?》
最近,這幾位 TED 演講者,在外網(wǎng)形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉后,五百萬網(wǎng)友簡直驚掉下巴。這 5 張圖里,你能發(fā)現(xiàn)幾個 bug?
最近,這些「TED 演講者」在外網(wǎng)火得一塌糊涂,堪稱病毒式傳播。仔細(xì)看看,你能發(fā)現(xiàn)什么問題嗎?
答案揭曉 —— 這五個人中,沒有一個是真人!
如此逼真,幾乎毫無破綻,這種級別的生圖 AI 直接讓網(wǎng)友們驚掉下巴。甚至連 AI 識別軟件,都認(rèn)不出來這是 AI 生成的圖。
「看起來真實,難道不是因為本來就是真實的照片?」
「沒有一張是真人嗎?簡直令人毛骨悚然!」
網(wǎng)友銳評:這已經(jīng)超越了恐怖谷,到達(dá)了「超真實谷」。
短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數(shù)已經(jīng)破了 500 萬。
隨后,作者也被扒了出來 —— 他就是 Stable Diffusion 團(tuán)隊的前成員 Leo Kadieff。他揭秘道:這些 TEDx 演講者,都是用最新的 Flux 真實版 LoRA 制作的。
以往的 AI 生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠 LoRA 技術(shù)改進(jìn)了模型,才大大增加了真實感。
并且,作者介紹說,這個工作流還有一個好處,就是大大簡化了復(fù)雜的提示詞。
這個消息,簡直讓提示詞苦手們狂喜。
這個小小的 22MB 文件,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關(guān)的 Token。
一句「一張 RAW 超現(xiàn)實主義照片,UHD,8k」,足矣。現(xiàn)實主義愛好者,絕對愛死了這個工具。
作者直言:我們還需要對現(xiàn)實模型進(jìn)行微調(diào)嗎?
這些圖像是 Flux+LoRA 的原始輸出,未經(jīng)過任何放大或后期處理
你需要對應(yīng)的「RealismLora」文件,以及 ComfyUI 工作流
真實版 LoRA,效果拔群
從下面這兩幅圖中不難看出,用 LoRA 和不用 LoRA 的效果對比,果然十分明顯。
網(wǎng)友已玩嗨
與此同時,「TED 演講者」的分享者 Kyrannio,也嘗試用 Midjourney 復(fù)刻了一波。
最初的提示詞如下:
一位女性在舞臺上發(fā)言,來自谷歌,白色背景,企業(yè)標(biāo)志被模糊處理,科技會議 --style raw --v 6.1
可以看出,生成效果還不錯,但與 Leo Kadieff 生成的圖片差距依然很大。
接著,博主又進(jìn)行了一些改進(jìn):
一位年輕女性微笑著在舞臺上發(fā)言,來自谷歌,白色背景,企業(yè)標(biāo)志被模糊處理,科技會議 --style raw --v 6.1
并在經(jīng)過多次生成之后,試出了最為接近的結(jié)果:
與此同時,隨著谷歌 Imagen 3 公開可用,網(wǎng)友們也在第一時間拿著這套 prompt 進(jìn)行了嘗試。
一時間,全網(wǎng)都掀起 AI 生圖的熱潮。
Imagen 3 全員可用
沒錯,正如剛剛提到的,谷歌最強(qiáng)文生圖模型 Imagen 3 已經(jīng)正式開放可用了。
prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.
網(wǎng)友 chrypnotoad 表示,自己還沒見過哪個 AI 能把阿喀琉斯之盾做得這么好的!
能輕松 hold 住如此復(fù)雜的 prompt,Imagen 3 果然不能小覷。
知名博主「歸藏」在體驗之后表示:
生成的內(nèi)容準(zhǔn)確但圖片美觀度很差。只要涉及人物,你就得仔細(xì)斟酌提示詞寫法,不然大概率無法出圖。
好在,他們在提示詞的交互上做得很好:
LLM 會分析提示詞類型,并且給出相關(guān)詞語你可以直接切換。
除了直接生成之外,Imagen 3 還支持局部重繪功能,用畫筆和提示詞對圖片進(jìn)行編輯。
當(dāng)然,幾家頂流文生圖 AI 的 PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1 [pro]。
異色瞳的亞洲女性。
美洲原住民。
有美人痣的南亞婦女。
瘋狂的藝術(shù)家。
很遺憾,谷歌大概因為安全設(shè)置過于敏感,并不能生成這個 prompt……
留著八字胡的高加索老人。
Runway 也來蹭了一波,但…
趁著這股熱度,Runway 創(chuàng)意總監(jiān) Nicolas Neubert,還用自家的 Gen-3 Alpha 生成了一段視頻。
果然,AI 圖片變成視頻后,效果依然杠杠的!
而這個帖子,也同樣引起了轟動。
網(wǎng)友贊嘆道:從一年半前慘不忍睹的威爾?史密斯吃意面,到今天這個程度,進(jìn)步可謂是瘋狂的。
同時,也有火眼金睛的網(wǎng)友發(fā)現(xiàn),這個視頻依然有一些細(xì)微的 bug。
比如人的舌頭不會動,牙齒有些彎曲、扁平,第 4 秒時左臂出現(xiàn)了奇怪的斑點,還有 Google 標(biāo)志處的 bug,也非常明顯。
如果看得再仔細(xì)點,會發(fā)現(xiàn)所有的陰影都很不自然,比如麥克風(fēng)的陰影。還有東西接觸的地方,很多線條是亂的。
嘴唇的動作也不自然。
眼睛看起來仍然沒有靈魂。
總的來說,相比于 AI 生圖,目前 AI 視頻的 bug 顯然要多得多。
背后的原因還是在于,AI 根本不理解人類的舌頭、頭發(fā)、眼睛究竟是什么東西。接下來的 AI,還是要學(xué)會人體解剖和物理學(xué)才行。
而且,在文生圖這塊,Runway 就要差得多了。
SD 一作攜原班人馬創(chuàng)業(yè),一出手就是王炸
說回到 FLUX.1,其實在 8 月初的時候它就引起過一波熱議。
Stable Diffusion 一作、Stabililty AI 核心成員 Robin Rombach 下場創(chuàng)業(yè),官宣成立 Black Forest Labs。
祭出的首個產(chǎn)品 FLUX.1 系列模型,效果直接秒殺 Midjourney、DALL-E 和 Stable Diffusion!
根據(jù)官博的介紹,F(xiàn)LUX.1 在圖像細(xì)節(jié)、提示詞遵循、風(fēng)格多樣性和場景復(fù)雜性方面都取得了 SOTA。
尤其是 FLUX.1 [pro],經(jīng)過測試在一眾文生圖模型中拔得頭籌。
為了在可訪問性和模型能力之間取得平衡,F(xiàn)LUX.1 有三種變體:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]:
- FLUX.1 [pro]:FLUX.1 的頂級版本,提供最先進(jìn)的圖像生成,具有一流的提示詞跟隨能力、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性。
- FLUX.1 [dev] 是一個開放權(quán)重的指令蒸餾模型,用于非商業(yè)應(yīng)用。由于是從 FLUX.1 [pro] 直接蒸餾而來,因此 FLUX.1 [dev] 不僅獲得了強(qiáng)大的質(zhì)量和提示詞跟隨能力,而且比同規(guī)模的標(biāo)準(zhǔn)模型更加高效。
- FLUX.1 [schnell] 是最快的模型,專為本地開發(fā)和個人使用而設(shè)計。(schnell 在德語中就是快的意思)
值得一提的是,所有 FLUX.1 模型都基于多模態(tài)和并行擴(kuò)散 Transformer 塊的混合架構(gòu),參數(shù)規(guī)模為 120 億。
其中,團(tuán)隊通過構(gòu)建流匹配(flow matching)改進(jìn)了之前的擴(kuò)散模型,并且通過結(jié)合旋轉(zhuǎn)位置嵌入(rotary positional embeddings)和并行注意力層提高了模型性能和改進(jìn)硬件效率。
團(tuán)隊成員
扒開 Black Forest Labs 主頁,可以看到團(tuán)隊共有 15 位成員。
創(chuàng)始人正是老熟人 Robin Rombach。
Stability AI 曾收購了 Robin 的 Latent Diffusion 模型,并聘請他成為首席科學(xué)家。
在 Google Scholar 網(wǎng)站上,Robin Rombach 參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經(jīng)收獲了 9000 多次引用。
期間他領(lǐng)導(dǎo)了全球著名文生圖開源項目 Stable Diffusion 系列,這也是全球下載最多、使用最廣的開源大模型之一。
Andreas Blattmann、Patrick Esser、Dominik Lorenz 三人皆是 SD 論文作者,也是 Black Forest Labs 創(chuàng)業(yè)團(tuán)隊的新成員。
除了 Bjorn Ommer,可以說 Robin 將 SD 核心元老全都帶走了。
《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收 Robin 離職前發(fā)表的最后一篇論文。
值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser 也參與了其中。
除此以外,新團(tuán)隊曾經(jīng)的創(chuàng)新成果包括創(chuàng)建 VQGAN 和潛在擴(kuò)散(Latent Diffusion)、用于圖像和視頻生成的 SD 模型(SD XL 、SVD)以及用于超快速實時圖像合成的對抗擴(kuò)散蒸餾(Adversarial Diffusion Distillation)。
看來,AI 生圖和視頻的進(jìn)步速度,還在不斷加快。再過一年,我們能看到的 AI 圖片和視頻,將是驚人的。
參考資料:
https://x.com/koltregaskes/status/1821984829065588891
https://x.com/doganural
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。