阿里正式加入 ChatGPT 戰(zhàn)局!
就在剛剛,阿里版類 ChatGPT 突然官宣正式對外開放企業(yè)邀測。
它叫通義千問,由達摩院開發(fā)。
嗯,是大模型版十萬個為什么那個味兒了。
事實上,早在這個月初,就傳出過不少阿里要推出類 ChatGPT 的消息,不過普遍預期在 11 號左右。
而前幾天率先流出的天貓精靈“鳥鳥分鳥”脫口秀版 GPT,就是基于大模型的“壓縮版”,已經(jīng)以其驚艷表現(xiàn)把網(wǎng)友的胃口吊了起來,讓眾人將目光投向阿里。
如今“正菜”提前上桌,自然一點即著,引爆輿論關(guān)注。
所以,這個阿里版 ChatGPT“通義千問”,究竟實力幾何?
恰好量子位拿到了第一批邀測資格,省流結(jié)論:中文大模型真正的競爭開始了。
咱們實測見真章。
調(diào)戲阿里版 ChatGPT 實錄
先來看看通義千問的主要功能。
作為一個大語言模型,它的能力主要集中在文本生成上,即也能像 ChatGPT 一樣“問啥答啥”:
這里我們試一下官方給的撰寫短文,看起來連語文老師常用的“總分總”也能理解:
除了對話外,它還具備一個“百寶袋”功能,里面相當于一個工具箱,能快速生成各種指定類型的文案:
話不多說,先從語言能力、上下文理解能力、代碼能力和數(shù)學能力四個方向,來測測模型的對話能力。
一、對話能力
語言能力
要說國內(nèi)大模型,首先要看的還得是中文。
先來個最基礎的:“能穿多少穿多少”是什么意思?
不錯,解釋得比較清楚,還順便聊了一下自己對這句話的看法:
續(xù)寫類的創(chuàng)意寫作,不但能模仿語氣,甚至還能創(chuàng)造懸疑,有點厲害喲~
接下來就輪到新一代 AI benchmark 弱智吧問題了:怎么才能把夢里的錢取到銀行卡里?
“在夢里取錢是一種幻覺或想象”,謝謝你清醒俠。
還有更扎心的……“如果您經(jīng)常做夢夢到錢,建議您睡前回顧一下自己的財務狀況,看看有什么不足之處”
雖然阿里的朋友稱,通義千問主要是中文不錯,但我們叛逆一點,看看這個中文大語言模型的其他語言水平怎么樣。
先不走尋常路,試試通義千問的日語能力,給花澤香菜寫一封情書。
看中文機翻似乎還不錯,這就把它寄給香菜,應該沒問題吧?
再來試試英語。剛好前段時間有網(wǎng)友 PK 了一下 Bard 和 GPT-4 的 Rap,我們也來看看通義千問的說唱能力。
這 top,這 stop,還給押上了!就是不知道姆爺認不認可。
試試加點難度,中英夾雜的諧音梗?
這個時候,通義千問的回答就顯得有點嚴肅了。
當我們給出答案的時候,雖然通義千問看出了這是個笑話,但它并不覺得好笑,還很嚴肅地指正我們:這并不意味著松下懼怕索尼。
不過我們發(fā)現(xiàn),ChatGPT 同樣一本正經(jīng)…… 這年頭的 AI 都這么正義么……
好,下一個試試它的上下文理解能力。
上下文理解能力
這部分說白了就是多輪對話能力,考查通義千問能不能準確提取上文的信息,用于下輪問題的回答。
來聽題:山東一縣一酒是真的嗎?
模糊掉山東試試?讓它列舉“這個省”幾個經(jīng)典的白酒牌子:
不錯。再試著從最新的回答中追問一下:
等等,“據(jù)史書記載”不會是編的資料吧?追問 ×2:
有意思的是,我們確實在孔府家酒的官網(wǎng)找到了資料來源:
代碼能力
接著,來試試它的代碼能力。整個計算器程序試試?
還不錯,實現(xiàn)了簡單的四則運算。完整版代碼如下,感興趣的胖友們可以試試:
#include <tream> #include <cmath> using namespace std; int main() { double num1, num2; char operator; cout << "Enter first number: "; cin >> num1; cout << "Enter second number: "; cin >> num2; cout << "Enter operator (+,-,*,/,%,...) : "; cin >> operator; switch(operator) { case '+': cout << num1 + num2 << endl; break; case '-': cout << num1 - num2 << endl; break; case '*': cout << num1 * num2 << endl; break; case '/': if(num2 == 0) { cout << "Error! Cannot divide by 0." << endl; break; } else { cout << num1 / num2 << endl; } break; case '%': cout << num1 % num2 << endl; break; default: cout << "Error! Invalid operator." << endl; break; } return 0; }
那么,讓將它這段代碼改寫成 Python:
再讓它解釋一下自己寫過的每一段代碼:
基礎編程能力,似乎問題不大?
不過,如果要讓通義千問將解釋改寫成注釋,就會出現(xiàn)一點神奇的 bug。
雖然它給“Python”代碼標好了注釋,但等等,這不是最初的 C++ 版代碼嘛!
(這何嘗不是一種 NTR)
數(shù)學能力
最后來看看數(shù)學問題。雞兔同籠,還不錯:
普通的計算題也沒什么問題,還能精確到小數(shù)點后幾位:
巴特,高數(shù)題就不太行了,雖然它發(fā)現(xiàn)了這道題需要求導,但求解方法卻出了錯……
不過通義千問也明確表示,無法保證在所有情況下給出正確的答案:
嗯… 和 GPT 們一樣,大模型的數(shù)學能力都比較初級。
對話能力測得差不多,接下來再看看它的“場景能力”。
二、場景能力
雖然通義千問“百寶袋”給出了不少功能,不過寫提綱、描述商品這些都很常見了,我們就挑了三個比較有意思的來試試:菜譜生成、彩虹屁生成器和免費代寫情書。
會放飛的菜譜
眾所周知,寫菜譜是個技術(shù)活兒,既考驗上下文能力(說過的材料都得用到),還得考考 AI 的理解菜名能力,做菜的步驟還不能太離譜。
示例的“清蒸鱸魚”,對 AI 來說顯然太簡單了。這不得整點游戲里奇怪的菜名給它試試?
先來一份《原神》里的飽腹感凝膠。
好家伙,竟然想到用現(xiàn)實中的魔芋粉來模仿飽腹感凝膠,這創(chuàng)意不錯。(不過卡路里粉是什么鬼,蛋白粉嗎?)
那么,同樣的菜再試試讓 ChatGPT 做一遍,你感覺哪個更好吃?
再給通義千問來道加試題,讓它試試《星露谷物語》里面,用虛空蛋做的奇怪的小面包?
等等,真把虛空蛋放進食譜了?而且還真的做了份面包出來!就是不知道口感如何……
照這樣看,游戲中的食譜都能給通義千問還原一遍了,直接打破次元壁。
彩虹屁生成器
接下來,再試試讓它生成一份彩虹屁。
硬生生把衣服上的油漬夸成了藝術(shù)品……
嗯,各大夸夸群可以考慮引入一個了。
免費代寫情書
最后,我們的測試以給野獸先輩寫一份情書做結(jié)尾。
你感覺怎么樣?
好了,看了這么多五(奇)花(奇)八(怪)門(怪)的測評,你是不是也有點好奇通義千問是怎么來的了?
通義千問從何而來?
關(guān)于通義千問的技術(shù)細節(jié),阿里達摩院官方?jīng)]有透露詳細信息。
而通義千問自己,是這么回答的:
訓練資料來自阿里巴巴達摩院,截止到 2023 年 2 月。訓練資料包括大量語言和文本數(shù)據(jù),包括中英日法西班牙語多語種文本數(shù)據(jù)。
還提到自己是個能聯(lián)網(wǎng)的大語言模型。
不過,我們實測了一下,發(fā)現(xiàn)千問只是虛晃一槍,假裝自己會上網(wǎng)(doge)。
實際上,當你單獨問它今天天氣如何時,通義千問會承認它不能訪問實時數(shù)據(jù)。
但如果你拋給它一個查詢天氣的網(wǎng)站,它就會假裝自己看到了網(wǎng)頁內(nèi)容,然后一本正經(jīng)地胡謅一番。
此處應喊話阿里程序員:你家大模型是真的想上網(wǎng)了。
書歸正傳,盡管官方口徑低調(diào),但正如 ChatGPT 脫胎于 OpenAI 的 GPT 系列,文心一言是自 Ernie 大模型發(fā)展而來,阿里也是國內(nèi)最早開始研發(fā)大模型的技術(shù)大廠之一。
公開資料顯示,2019 年,阿里就已經(jīng)啟動了中文大模型研發(fā)。當時阿里發(fā)布的語言大模型 StructBERT 超越谷歌、微軟、Facebook,登頂了 CLUE 榜單。
2021 年,阿里先后發(fā)布了國內(nèi)首個超百億參數(shù)多模態(tài)大模型 M6,以及被稱為“中文版 GPT-3”的語言大模型 PLUG。
其中,M6 在多次迭代之后,實現(xiàn)了十萬億級別的參數(shù)規(guī)模,并且 M6 和支付寶、淘寶的業(yè)務需求相結(jié)合,首個在國內(nèi)實現(xiàn)了商業(yè)化落地。
PLUG 的參數(shù)規(guī)模則為 270 億,是基于達摩院的兩種自研模型 —— 語言理解模型 StructBERT 和語言生成模型 PALM 打造。
這一大模型初登場,就以 80.614 分刷新了權(quán)威中文語言理解基準 CLUE 分類任務榜單記錄。
在去年的 WAIC(世界人工智能大會)上,阿里還發(fā)布了通義大模型系列。其中核心模型均已開源開放。
大模型時代,中國力量加速競逐
那么,你會給這個阿里版 ChatGPT 打幾分?
需要承認的是,相比于現(xiàn)在的業(yè)界標桿 ChatGPT(GPT-4),通義千問還有不少進步空間。阿里方面也透露,根據(jù)內(nèi)測反饋,這一大模型正在飛速迭代中。
此前,微軟被曝曾專門為 ChatGPT 砸下數(shù)億美元,打造由上萬張英偉達 A100 組成的專用超算。而綜合各方消息來看,目前國內(nèi)擁有這一數(shù)量級高性能顯卡的企業(yè)屈指可數(shù),阿里是其中之一。
大模型時代,已經(jīng)形成行業(yè)共識的一點是,打造大模型,AI 和云計算缺一不可。
而阿里,是全球少數(shù)在算法和算力上都有領(lǐng)先布局的公司之一。
除了本身在人工智能和大模型方面長期的技術(shù)積累,背靠國內(nèi)第一、亞洲第三的云廠商,阿里在算力方面也具備天然的優(yōu)勢。
ChatGPT 這把火燒到如今,國內(nèi)對具備足夠競爭力的國產(chǎn)生成式大模型的需求,正在與日俱增。
ChatGPT 類產(chǎn)品提升生產(chǎn)效率的潛力,已經(jīng)被不斷驗證。但與此同時,前有 ChatGPT 大規(guī)模封號、亞洲成重災區(qū),后有 OpenAI 因算力問題停售 ChatGPT Plus……
種種不確定因素,再一次凸顯了技術(shù)自研的價值。
所幸這次,我們的起跑線,并沒有相差那么遠。
游戲不會在一夜間結(jié)束,而現(xiàn)在,競逐真正開始。
本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫 魚羊
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。