IT之家 7 月 20 日消息,人工智能公司 Cohere 首席執(zhí)行官 Aiden Gomez 近日透露,由于 Reddit、Twitter 等公司的數(shù)據(jù)采集要價(jià)太高,包括微軟、OpenAI 和 Cohere 在內(nèi)的 AI 公司,已使用合成數(shù)據(jù)來訓(xùn)練 AI 模型。
Gomez 表示合成數(shù)據(jù)可以適用于很多訓(xùn)練場景,只是目前尚未全面推廣。
IT之家在此附上 Gomez 舉的一個(gè)例子:如果某個(gè)企業(yè)想在高等數(shù)學(xué)中訓(xùn)練一個(gè)模型,可以創(chuàng)建兩個(gè)人工智能模型,分別扮演老師和學(xué)生的角色,并讓它們討論三角學(xué)之類的話題。人工主要負(fù)責(zé)觀察,如果看到有什么錯(cuò)誤,可以進(jìn)行糾正。
IT之家注:
合成數(shù)據(jù)(synthetic data)是通過計(jì)算機(jī)技術(shù)人工生成的數(shù)據(jù),而不是由真實(shí)事件產(chǎn)生的數(shù)據(jù)。
但合成數(shù)據(jù)具備“可用性”,能夠在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上反映原始數(shù)據(jù)的屬性,因此可以作為原始數(shù)據(jù)的替代品來訓(xùn)練、測試并驗(yàn)證大模型。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。