新智元報道
編輯:Aeneas 好困
【新智元導讀】2026 年的數(shù)據(jù)荒越來越近,硅谷大廠們已經(jīng)為 AI 訓練數(shù)據(jù)搶瘋了!它們紛紛豪擲十數(shù)億美元,希望把犄角旮旯里的照片、視頻、聊天記錄都給挖出來。不過,如果有一天 AI 忽然吐出了我們的自拍照或者隱私聊天,該怎么辦?
誰能想到,我們多年前的聊天記錄、社交媒體上的陳年照片,忽然變得價值連城,被大科技公司爭相瘋搶。
現(xiàn)在,硅谷大廠們已經(jīng)紛紛出動,買下所有能購買版權的互聯(lián)網(wǎng)數(shù)據(jù),這架勢簡直要搶破頭了!
圖像托管網(wǎng)站 Photobucket 的陳年舊數(shù)據(jù),本來已經(jīng)多年無人問津,但如今,它們正在被各大互聯(lián)網(wǎng)公司瘋搶,用來訓練 AI 模型。
為此,科技巨頭們愿意拿出實打實的真金白銀。比如,每張照片價值 5 美分到 1 美元,每個視頻價值超過 1 美元,具體情況取決于買家和素材種類。
總之,為了購買 AI 訓練數(shù)據(jù),巨頭們已經(jīng)展開了一場地下競賽!
而最近鬧得轟轟烈烈的 Meta 圖像生成器大翻車事件,更是讓 AI 的訓練數(shù)據(jù)「刻板印象」暴露無遺。
如果喂給模型的數(shù)據(jù)無法改變「偏見」,那各大公司要遭遇的輿論風波,只怕少不了。
Meta 的 AI 生圖工具畫不出來「亞洲男性和白人妻子」或「亞洲女性和白人丈夫」
巨頭狂砸數(shù)十億美元,只為買到數(shù)據(jù)「黃金」
根據(jù)路透社報道,在 2000 年代,Photobucket 處于巔峰期,擁有 7000 萬用戶。而今天,這家頂級網(wǎng)站的用戶已經(jīng)驟降到了 200 萬人。
但生成式 AI,給這家公司帶來了新生。
CEO Ted Leonard 開心地透露,目前已經(jīng)有多家科技公司找上門來,愿意重金購買公司的 130 億份照片和視頻。
目的,當然就是訓練 AI。
為了得到這些數(shù)據(jù),各大公司都非常舍得割肉。
而且,他們還想要更多!據(jù)說,一位買家表示,自己想要超過 10 億個視頻,而這,已經(jīng)遠遠超出了 Photobucket 能提供的數(shù)量。
據(jù)粗略估計,Photobucket 手中握著的數(shù)據(jù),很可能價值數(shù)十億美元。
OpenAI 陷起訴風波,版權太敏感了
現(xiàn)在眼看著,大家的數(shù)據(jù)都不夠用了。
根據(jù) Epoch 研究所的分析,到 2026 年,科技公司很可能會耗盡互聯(lián)網(wǎng)上所有的高質(zhì)量數(shù)據(jù),因為他們消耗數(shù)據(jù)的速度,遠遠超過了數(shù)據(jù)的生成速度!
訓練 ChatGPT 的數(shù)據(jù),是從互聯(lián)網(wǎng)上免費抓取的。Sora 的訓練數(shù)據(jù)來源不詳,CTO Murati 接受采訪時支支吾吾的表現(xiàn),險些又讓 OpenAI 大翻車。
雖然 OpenAI 表示,自己的做法完全合法,但前方還有一堆版權訴訟在等著他們。而其他大科技公司都跟著學乖了,大家都在悄悄地為付費墻和登錄屏幕背后的鎖定內(nèi)容付費。
如今,無論是陳舊的聊天記錄,還是被遺忘的社交媒體上褪色的舊照片,忽然都變成了價值連城的東西。而各大公司已經(jīng)紛紛出動,急于尋找版權所有者的授權。畢竟,私人收藏的東西,是無法抓取的。
外媒記者走訪了 30 多名專業(yè)人士,發(fā)現(xiàn)這背后隱藏的,是一個黃金市場。
雖然很多公司對于這個不透明的 AI 市場規(guī)模表示緘默,但 Business Research Insights 等研究人員認為,目前市場規(guī)模約為 25 億美元,并預測十年內(nèi)可能會增長近 300 億美元。
生成數(shù)據(jù)淘金熱,讓數(shù)據(jù)商樂開花
對科技公司來說,如果不能使用免費抓取的網(wǎng)頁數(shù)據(jù)檔案,比如 Common Crawl,那成本會是一個很可怕的數(shù)字。
但是一連串版權訴訟和監(jiān)管熱潮,已經(jīng)讓他們別無選擇。甚至,硅谷已經(jīng)出現(xiàn)了一個新興的行業(yè) —— 數(shù)據(jù)經(jīng)紀人。而圖片、視頻供應商們,也隨之賺得盆滿缽滿。
手快的公司,早就反應過來了。ChatGPT 在 2022 年底亮相的幾個月內(nèi),Meta、谷歌、亞馬遜和蘋果就已經(jīng)迅速和圖片庫提供商 Shutterstock 達成協(xié)議,使用庫中的數(shù)億份圖像、視頻和音樂文件進行訓練。
根據(jù)首席財務官透露的數(shù)據(jù),這些交易從 2500 萬美元到 5000 萬美元不等。
而 Shutterstock 的競爭對手 Freepik,也已經(jīng)有了兩位大買家,2 億張圖片檔案中的大部分,會以 2 至 4 美分的價格授權。
OpenAI 當然也不會落后,它不僅是 Shutterstock 的早期客戶,還與包括美聯(lián)社在內(nèi)的至少四家新聞機構簽署了許可協(xié)議。
讓內(nèi)容「合乎道德」
同時興起的,還有 AI 數(shù)據(jù)定制行業(yè)。
這批公司獲得了與播客、短視頻和與數(shù)字助理互動等現(xiàn)實世界內(nèi)容的授權,同時還建立了短期合同工網(wǎng)絡,從頭開始定制視覺效果和語音樣本。
作為代表之一的 Defined.ai,已經(jīng)把自己的內(nèi)容賣給了谷歌、Meta、蘋果、亞馬遜、微軟等多家科技大廠。
其中,一張圖片賣 1 到 2 美元,一部短視頻賣 2 到 4 美元,一部長片每小時可以賣到 100 到 300 美元,文本的市價則是每字 0.001 美元。
而比較麻煩的裸體圖像,售價為 5 到 7 美元,因為還需要后期處理。
而這些照片、播客和醫(yī)療數(shù)據(jù)的所有者,也會獲得總交易額 20% 至 30% 的費用。
一位巴西數(shù)據(jù)商表示,為了獲得犯罪現(xiàn)場、沖突暴力和手術的圖像,他需要從警察、自由攝影記者和醫(yī)學生手里去買。
他補充說,他的公司雇用了習慣于看到暴力傷害的護士來脫敏和標注這些圖像,這對未經(jīng)訓練的眼睛來說是令人不安的。
而將圖像脫敏、標注的工作,則交給慣于看到暴力傷害的護士,畢竟未經(jīng)訓練的人眼看到這些圖像,會很不安。
然而,這些 AI 模型的「燃料」,很可能會引發(fā)嚴重的問題,比如 —— 吐出用戶隱私。
專家發(fā)現(xiàn),AI 會反芻訓練數(shù)據(jù),比如,它們會吐出 Getty Images 水印,逐字輸出紐約時報文章的段落,甚至再現(xiàn)真人圖像。
Getty Images 指責 Stability AI「以驚人的規(guī)模肆無忌憚地侵犯它的知識產(chǎn)權」
也就是說,幾十年前某人發(fā)布的私人照片或私密想法,很可能在不知情的情況下,被 AI 模型原樣吐了出來!
這次「ChatGPT 在回復中泄露陌生男子自拍照事件」,讓大家頗為恐慌
這些隱患,目前還沒有有效方法解決。
調(diào)查顯示,用戶愿意每月多付 1 美元,讓自己的個人數(shù)據(jù)不被第三方使用
Altman,也看上了合成數(shù)據(jù)
另外,Sam Altman 也早看到了合成數(shù)據(jù)的未來。
這些數(shù)據(jù)不是人類直接創(chuàng)造的,而是由 AI 模型生成的文本、圖像和代碼,也就是說,這些系統(tǒng)通過學習自己產(chǎn)生的內(nèi)容來進步。
既然 AI 能創(chuàng)造出接近人類的文本,當然也就能自產(chǎn)自銷,幫自己進化成更先進的版本。
只要我們能夠跨過合成數(shù)據(jù)的關鍵閾值,即讓模型能夠自主創(chuàng)造出高質(zhì)量的合成數(shù)據(jù),那么一切問題都將迎刃而解。
——Sam Altman
不過,這件事真的這么容易嗎?
人工智能研究者們已經(jīng)研究合成數(shù)據(jù)多年,但要構建一個能自我訓練的人工智能系統(tǒng)并非易事。
專家發(fā)現(xiàn),模型如果只依賴于自我生成的數(shù)據(jù),可能會不斷重復自己的錯誤和局限,陷入一個自我加強的循環(huán)中。
這些系統(tǒng)所需的數(shù)據(jù),就像是在叢林中尋找一條路徑,如果它們僅僅依賴于合成數(shù)據(jù),就可能在叢林里迷路。
—— 前 OpenAI 研究員、現(xiàn)任不列顛哥倫比亞大學計算機科學教授 Jeff Clune
對此,OpenAI 正在探索如何讓兩個不同的人工智能模型協(xié)作,共同生成更高質(zhì)量、更可靠的合成數(shù)據(jù)。其中一個負責生成數(shù)據(jù),另一個則負責評估。
這種方法是否有效,還未可知。
「規(guī)?!笽s All You Need
數(shù)據(jù)為什么對 AI 模型這么重要?這要從下面這篇論文說起。
2020 年 1 月,約翰斯?霍普金斯大學的理論物理學家 Jared Kaplan 與 9 位 OpenAI 研究人員共同發(fā)表了一篇具有里程碑意義的人工智能論文。
他們得出了一個明確的結論:訓練大語言模型所用的數(shù)據(jù)越多,其性能就越好。
正如一個學生通過閱讀更多書籍能學到更多知識一樣,大語言模型能通過更多的信息更精確地識別文本模式。
很快,「只要規(guī)模足夠大,一切就皆有可能」便成為了 AI 領域的共識。
2020 年 11 月,OpenAI 推出的 GPT-3,便利用了當時最為龐大的數(shù)據(jù)進行訓練 —— 約 3000 億個 token。
在吸收了這些數(shù)據(jù)后,GPT-3 展現(xiàn)出了驚人的文本生成能力 —— 它不僅可以撰寫博客文章、詩歌,甚至還能編寫自己的計算機程序。
但如今看來,這個數(shù)據(jù)集的規(guī)模就顯得相當小了。
到了 2022 年,DeepMind 將訓練數(shù)據(jù)直接拉到了 1.4 萬億個 token,比 Kaplan 博士在論文中預測的還要多。
然而,這一記錄并未保持太久。
2023 年,谷歌發(fā)布的 PaLM 2,在訓練 token 上更是達到了 3.6 萬億 —— 幾乎是牛津大學博德利圖書館自 1602 年以來收集手稿數(shù)量的兩倍。
為訓 GPT-4,OpenAI 白嫖 100 萬 + 小時 YouTube 視頻
但正如 OpenAI 的 CEO Sam Altman 所說,AI 終究會消耗完互聯(lián)網(wǎng)上所有可用的數(shù)據(jù)資源。
這不是預言,也不是危言聳聽 —— 因為 Altman 本人就曾親眼目睹過它的發(fā)生。
在 OpenAI,研究團隊多年來一直在收集、清理數(shù)據(jù),并將其匯集成巨大的文本庫,用以訓練公司的語言模型。
他們從 GitHub 這個計算機代碼庫中提取信息,收集了國際象棋走法的數(shù)據(jù)庫,并利用 Quizlet 網(wǎng)站上關于高中考試和作業(yè)的數(shù)據(jù)。
然而,到了 2021 年底,這些數(shù)據(jù)資源已經(jīng)耗盡。
為了下一代 AI 模型的開發(fā),總裁 Brockman 決定親自披掛上陣。在他的帶領下,團隊開發(fā)出了一款全新名的語音識別工具 Whisper,可以快速準確地轉錄播客、有聲讀物和視頻。
有了 Whisper 之后,OpenAI 很快便轉錄了超過 100 萬小時的 YouTube 視頻,而 Brockman 更是親自參與到了收集工作當中。
最終的故事大家都知道了,在如此高質(zhì)量數(shù)據(jù)的加持下,地表最強的 GPT-4 橫空出世。
谷歌:我也一樣
有趣的是,谷歌其實早就知道 OpenAI 在利用 YouTube 視頻收集數(shù)據(jù),但從未想過要出面阻止。
你猜的沒錯,谷歌也在利用 YouTube 視頻來訓練自家的 AI 模型。
而如果要對 OpenAI 的行為大加指責,他們不僅會暴露自己,甚至還會引發(fā)公眾更加強烈的反應。
不僅如此,那些儲存在 Google Docs、Google Sheets 等應用里的數(shù)十億文字數(shù)據(jù),也是谷歌的目標。
2023 年 6 月,谷歌的法律部門要求隱私團隊修改服務條款,從而擴展公司對消費者數(shù)據(jù)的使用權限。
也就是,為公司能夠利用用戶公開分享的內(nèi)容開發(fā)一系列的 AI 產(chǎn)品,鋪平道路。
據(jù)員工透露,他們被明確指示要在 7 月發(fā)布新的條款,因為那時大家的注意力都在即將到來的假期上。
Meta 數(shù)據(jù)不足,高管被迫天天開會
同樣在追趕 OpenAI 的,還有 Meta。
為了能夠超越 ChatGPT,小扎不分晝夜地催促公司的高管和工程師加快開發(fā)一個能與之競爭的聊天機器人。
然而,到了去年年初,Meta 也遇到了和其他競爭者一樣的難題 —— 數(shù)據(jù)不足。
盡管 Meta 掌管著龐大的社交網(wǎng)絡資源,但不僅用戶沒有保留帖子的習慣(很多人會刪除自己之前的發(fā)布),而且 Facebook 畢竟也不是一個大家習慣發(fā)高質(zhì)量長文的地方。
生成式 AI 副總裁 Ahmad Al-Dahle 向高層透露,為了開發(fā)出一個模型,他的團隊幾乎利用了網(wǎng)絡上所有可找到的英文書籍、論文、詩歌和新聞文章。
但這些還遠遠不夠。
2023 年 3 月到 4 月,公司的商務發(fā)展負責人、工程師和律師幾乎每天都在密集會議,試圖找到解決方案。
他們考慮了為獲取新書的完整版權支付每本 10 美元的可能性,并討論了收購出版了斯蒂芬?金等作者作品的 Simon & Schuster 的想法。
與此同時,他們還討論了未經(jīng)允許就對網(wǎng)絡上的書籍、論文等作品進行摘要的做法,并考慮進一步「吸收」更多內(nèi)容,哪怕這可能招致法律訴訟。
好在,作為行業(yè)標桿的 OpenAI,就在未經(jīng)授權的情況下使用了版權材料,而 Meta 或許可以參考這一「市場先例」。
根據(jù)錄音,Meta 的高管們決定借鑒 2015 年作家協(xié)會(Authors Guild)對谷歌的法庭判決。
在那個案例中,谷歌被允許掃描、數(shù)字化并在在線數(shù)據(jù)庫中編目書籍,因為它僅在線上復制了作品的一小部分,并且改變了原作,這被認定為合理使用。
在會議中,Meta 的律師們表示,用數(shù)據(jù)訓練人工智能系統(tǒng)應當同樣被視為合理使用。
但即便如此,Meta 似乎還是沒攢夠數(shù)據(jù)……
AI 生圖工具拒絕「白人和亞洲人」合影
最近,外媒 The Verge 的記者在多次嘗試后發(fā)現(xiàn),Meta 的 AI 圖像生成工具并不能創(chuàng)建一張東亞男性和白人女性同框的圖片。
不管 prompt 是「亞洲男性與白人朋友」、「亞洲男性與白人妻子」、「亞洲女性與白人丈夫」,還是經(jīng)過魔改的「一位亞洲男性和一位白人女性帶著狗微笑」,都于事無補。
當他將「白人」改為「高加索人」時,結果依舊如此。
比如「亞洲男性和高加索女性的婚禮日」這個 prompt,得到的卻是一張身穿西裝的亞洲男性與身著旗袍 / 和服混搭的亞洲女性的圖像……
AI 居然難以想象亞洲人與白人并肩而立的場景,這著實有些匪夷所思。
而且,在生成的內(nèi)容中,還隱藏著更加微妙的偏見。
舉個例子,Meta 總是將「亞洲女性」描繪成東亞面孔,似乎忽略了印度作為世界上人口最多國家的事實。與此同時,「亞洲男性」多為年長者,而亞洲女性卻總是年輕化。
相比之下,OpenAI 加持的 DALL-E 3,就完全沒有這個問題。
對此,有網(wǎng)友指出,出現(xiàn)這個問題的原因是 Meta 在模型訓練時沒有輸入足夠多的場景示例。
簡而言之,問題不在于代碼本身,而在于模型訓練時所使用的數(shù)據(jù)集不夠豐富,沒有充分覆蓋所有可能的場景。
但更深層次的是,AI 的行為是其創(chuàng)造者偏見的體現(xiàn)。
在美國媒體中,「亞洲人」通常就是指東亞人,不符合這一單一形象的亞洲人幾乎從文化意識中被抹去,即便是符合的人也在主流媒體中被邊緣化。
而這,只是因數(shù)據(jù)造成的 AI 偏見的一隅而已。
參考資料:
https://www.reuters.com/technology/inside-big-techs-underground-race-buy-ai-training-data-2024-04-05/
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
https://www.theverge.com/2024/4/3/24120029/instagram-meta-ai-sticker-generator-asian-people-racism
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。