設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

新恐怖谷:全球 500 萬網(wǎng)友被騙,爆火 TEDx 演講者沒一個是真人

新智元 2024/8/10 20:20:53 責(zé)編:問舟

原文標(biāo)題:《超越恐怖谷!全球 500 萬網(wǎng)友被騙,爆火 TEDx 演講者沒一個是真人?》

最近,這幾位 TED 演講者,在外網(wǎng)形成了病毒式傳播,然而,他們竟然全都不是真人?!答案揭曉后,五百萬網(wǎng)友簡直驚掉下巴。這 5 張圖里,你能發(fā)現(xiàn)幾個 bug?

最近,這些「TED 演講者」在外網(wǎng)火得一塌糊涂,堪稱病毒式傳播。仔細(xì)看看,你能發(fā)現(xiàn)什么問題嗎?

答案揭曉 —— 這五個人中,沒有一個是真人!

在線尋人的小哥要哭了

如此逼真,幾乎毫無破綻,這種級別的生圖 AI 直接讓網(wǎng)友們驚掉下巴。甚至連 AI 識別軟件,都認(rèn)不出來這是 AI 生成的圖。

「看起來真實,難道不是因為本來就是真實的照片?」

「沒有一張是真人嗎?簡直令人毛骨悚然!」

網(wǎng)友銳評:這已經(jīng)超越了恐怖谷,到達(dá)了「超真實谷」。

短短十幾個小時,分享這張圖片的帖子,在推上的觀看人數(shù)已經(jīng)破了 500 萬。

隨后,作者也被扒了出來 —— 他就是 Stable Diffusion 團(tuán)隊的前成員 Leo Kadieff。他揭秘道:這些 TEDx 演講者,都是用最新的 Flux 真實版 LoRA 制作的。

以往的 AI 生圖,人眼多少都會看出違和感,而這次的圖片如此逼真,正是靠 LoRA 技術(shù)改進(jìn)了模型,才大大增加了真實感。

并且,作者介紹說,這個工作流還有一個好處,就是大大簡化了復(fù)雜的提示詞。

這個消息,簡直讓提示詞苦手們狂喜。

這個小小的 22MB 文件,就可以讓我們省去麻煩,不必再在每個提示詞中寫一堆與真實性相關(guān)的 Token。

一句「一張 RAW 超現(xiàn)實主義照片,UHD,8k」,足矣。現(xiàn)實主義愛好者,絕對愛死了這個工具。

作者直言:我們還需要對現(xiàn)實模型進(jìn)行微調(diào)嗎?

  •  這些圖像是 Flux+LoRA 的原始輸出,未經(jīng)過任何放大或后期處理

  •  你需要對應(yīng)的「RealismLora」文件,以及 ComfyUI 工作流

Lora:https://huggingface.co/XLabs-AI/flux-RealismLora/tree/main
ComfuUI:https://we.tl/t-zrC5tPFG17

真實版 LoRA,效果拔群

從下面這兩幅圖中不難看出,用 LoRA 和不用 LoRA 的效果對比,果然十分明顯。

網(wǎng)友已玩嗨

與此同時,「TED 演講者」的分享者 Kyrannio,也嘗試用 Midjourney 復(fù)刻了一波。

最初的提示詞如下:

一位女性在舞臺上發(fā)言,來自谷歌,白色背景,企業(yè)標(biāo)志被模糊處理,科技會議 --style raw --v 6.1

可以看出,生成效果還不錯,但與 Leo Kadieff 生成的圖片差距依然很大。

接著,博主又進(jìn)行了一些改進(jìn):

一位年輕女性微笑著在舞臺上發(fā)言,來自谷歌,白色背景,企業(yè)標(biāo)志被模糊處理,科技會議 --style raw --v 6.1

并在經(jīng)過多次生成之后,試出了最為接近的結(jié)果:

與此同時,隨著谷歌 Imagen 3 公開可用,網(wǎng)友們也在第一時間拿著這套 prompt 進(jìn)行了嘗試。

一時間,全網(wǎng)都掀起 AI 生圖的熱潮。

Imagen 3 全員可用

沒錯,正如剛剛提到的,谷歌最強(qiáng)文生圖模型 Imagen 3 已經(jīng)正式開放可用了。

prompt:Photo of a man holding a sign that says: "Imagen Is Now Almost As Good As Midjourney" in New York City.

來源:Risphere

網(wǎng)友 chrypnotoad 表示,自己還沒見過哪個 AI 能把阿喀琉斯之盾做得這么好的!

能輕松 hold 住如此復(fù)雜的 prompt,Imagen 3 果然不能小覷。

知名博主「歸藏」在體驗之后表示:

生成的內(nèi)容準(zhǔn)確但圖片美觀度很差。只要涉及人物,你就得仔細(xì)斟酌提示詞寫法,不然大概率無法出圖。

好在,他們在提示詞的交互上做得很好:

LLM 會分析提示詞類型,并且給出相關(guān)詞語你可以直接切換。

來源:歸藏

除了直接生成之外,Imagen 3 還支持局部重繪功能,用畫筆和提示詞對圖片進(jìn)行編輯。

來源:歸藏

當(dāng)然,幾家頂流文生圖 AI 的 PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1 [pro]。

異色瞳的亞洲女性。

美洲原住民。

有美人痣的南亞婦女。

瘋狂的藝術(shù)家。

很遺憾,谷歌大概因為安全設(shè)置過于敏感,并不能生成這個 prompt……

留著八字胡的高加索老人。

Runway 也來蹭了一波,但…

趁著這股熱度,Runway 創(chuàng)意總監(jiān) Nicolas Neubert,還用自家的 Gen-3 Alpha 生成了一段視頻。

果然,AI 圖片變成視頻后,效果依然杠杠的!

而這個帖子,也同樣引起了轟動。

網(wǎng)友贊嘆道:從一年半前慘不忍睹的威爾?史密斯吃意面,到今天這個程度,進(jìn)步可謂是瘋狂的。

同時,也有火眼金睛的網(wǎng)友發(fā)現(xiàn),這個視頻依然有一些細(xì)微的 bug。

比如人的舌頭不會動,牙齒有些彎曲、扁平,第 4 秒時左臂出現(xiàn)了奇怪的斑點,還有 Google 標(biāo)志處的 bug,也非常明顯。

如果看得再仔細(xì)點,會發(fā)現(xiàn)所有的陰影都很不自然,比如麥克風(fēng)的陰影。還有東西接觸的地方,很多線條是亂的。

嘴唇的動作也不自然。

眼睛看起來仍然沒有靈魂。

總的來說,相比于 AI 生圖,目前 AI 視頻的 bug 顯然要多得多。

背后的原因還是在于,AI 根本不理解人類的舌頭、頭發(fā)、眼睛究竟是什么東西。接下來的 AI,還是要學(xué)會人體解剖和物理學(xué)才行。

而且,在文生圖這塊,Runway 就要差得多了。

SD 一作攜原班人馬創(chuàng)業(yè),一出手就是王炸

說回到 FLUX.1,其實在 8 月初的時候它就引起過一波熱議。

Stable Diffusion 一作、Stabililty AI 核心成員 Robin Rombach 下場創(chuàng)業(yè),官宣成立 Black Forest Labs。

祭出的首個產(chǎn)品 FLUX.1 系列模型,效果直接秒殺 Midjourney、DALL-E 和 Stable Diffusion!

根據(jù)官博的介紹,F(xiàn)LUX.1 在圖像細(xì)節(jié)、提示詞遵循、風(fēng)格多樣性和場景復(fù)雜性方面都取得了 SOTA。

尤其是 FLUX.1 [pro],經(jīng)過測試在一眾文生圖模型中拔得頭籌。

視覺質(zhì)量、提示詞遵循、尺寸 / 縱橫比變化、排版和輸出多樣性

ELO 得分

為了在可訪問性和模型能力之間取得平衡,F(xiàn)LUX.1 有三種變體:FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]:

- FLUX.1 [pro]:FLUX.1 的頂級版本,提供最先進(jìn)的圖像生成,具有一流的提示詞跟隨能力、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性。

- FLUX.1 [dev] 是一個開放權(quán)重的指令蒸餾模型,用于非商業(yè)應(yīng)用。由于是從 FLUX.1 [pro] 直接蒸餾而來,因此 FLUX.1 [dev] 不僅獲得了強(qiáng)大的質(zhì)量和提示詞跟隨能力,而且比同規(guī)模的標(biāo)準(zhǔn)模型更加高效。

- FLUX.1 [schnell] 是最快的模型,專為本地開發(fā)和個人使用而設(shè)計。(schnell 在德語中就是快的意思)

值得一提的是,所有 FLUX.1 模型都基于多模態(tài)和并行擴(kuò)散 Transformer 塊的混合架構(gòu),參數(shù)規(guī)模為 120 億。

其中,團(tuán)隊通過構(gòu)建流匹配(flow matching)改進(jìn)了之前的擴(kuò)散模型,并且通過結(jié)合旋轉(zhuǎn)位置嵌入(rotary positional embeddings)和并行注意力層提高了模型性能和改進(jìn)硬件效率。

團(tuán)隊成員

扒開 Black Forest Labs 主頁,可以看到團(tuán)隊共有 15 位成員。

創(chuàng)始人正是老熟人 Robin Rombach。

Stability AI 曾收購了 Robin 的 Latent Diffusion 模型,并聘請他成為首席科學(xué)家。

在 Google Scholar 網(wǎng)站上,Robin Rombach 參與論文《High-Resolution Image Synthesis With Latent Diffusion Models》已經(jīng)收獲了 9000 多次引用。

期間他領(lǐng)導(dǎo)了全球著名文生圖開源項目 Stable Diffusion 系列,這也是全球下載最多、使用最廣的開源大模型之一。

論文地址:https://arxiv.org/ pdf/2112.10752

Andreas Blattmann、Patrick Esser、Dominik Lorenz 三人皆是 SD 論文作者,也是 Black Forest Labs 創(chuàng)業(yè)團(tuán)隊的新成員。

除了 Bjorn Ommer,可以說 Robin 將 SD 核心元老全都帶走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收 Robin 離職前發(fā)表的最后一篇論文。

論文地址:https://arxiv.org/ abs / 2403.12015

值得一提的是,在這篇論文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser 也參與了其中。

除此以外,新團(tuán)隊曾經(jīng)的創(chuàng)新成果包括創(chuàng)建 VQGAN 和潛在擴(kuò)散(Latent Diffusion)、用于圖像和視頻生成的 SD 模型(SD XL 、SVD)以及用于超快速實時圖像合成的對抗擴(kuò)散蒸餾(Adversarial Diffusion Distillation)。

看來,AI 生圖和視頻的進(jìn)步速度,還在不斷加快。再過一年,我們能看到的 AI 圖片和視頻,將是驚人的。

參考資料:

  • https://x.com/koltregaskes/status/1821984829065588891

  • https://x.com/doganural

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Stable DiffusionMidjourney,AI 生圖,LoRA

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知