首頁 > 科學探索>科技前沿

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

量子位 2023/4/7 18:26:08 責編：夢澤

評論：

阿里正式加入 ChatGPT 戰(zhàn)局！

就在剛剛，阿里版類 ChatGPT 突然官宣正式對外開放企業(yè)邀測。

它叫通義千問，由達摩院開發(fā)。

嗯，是大模型版十萬個為什么那個味兒了。

事實上，早在這個月初，就傳出過不少阿里要推出類 ChatGPT 的消息，不過普遍預期在 11 號左右。

而前幾天率先流出的天貓精靈“鳥鳥分鳥”脫口秀版 GPT，就是基于大模型的“壓縮版”，已經(jīng)以其驚艷表現(xiàn)把網(wǎng)友的胃口吊了起來，讓眾人將目光投向阿里。

如今“正菜”提前上桌，自然一點即著，引爆輿論關(guān)注。

所以，這個阿里版 ChatGPT“通義千問”，究竟實力幾何？

恰好量子位拿到了第一批邀測資格，省流結(jié)論：中文大模型真正的競爭開始了。

咱們實測見真章。

調(diào)戲阿里版 ChatGPT 實錄

先來看看通義千問的主要功能。

作為一個大語言模型，它的能力主要集中在文本生成上，即也能像 ChatGPT 一樣“問啥答啥”：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

這里我們試一下官方給的撰寫短文，看起來連語文老師常用的“總分總”也能理解：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

△ 又一個中文寫作業(yè)神器（doge）

除了對話外，它還具備一個“百寶袋”功能，里面相當于一個工具箱，能快速生成各種指定類型的文案：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

話不多說，先從語言能力、上下文理解能力、代碼能力和數(shù)學能力四個方向，來測測模型的對話能力。

一、對話能力

語言能力

要說國內(nèi)大模型，首先要看的還得是中文。

先來個最基礎的：“能穿多少穿多少”是什么意思？

不錯，解釋得比較清楚，還順便聊了一下自己對這句話的看法：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

續(xù)寫類的創(chuàng)意寫作，不但能模仿語氣，甚至還能創(chuàng)造懸疑，有點厲害喲~

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

接下來就輪到新一代 AI benchmark 弱智吧問題了：怎么才能把夢里的錢取到銀行卡里？

“在夢里取錢是一種幻覺或想象”，謝謝你清醒俠。

還有更扎心的……“如果您經(jīng)常做夢夢到錢，建議您睡前回顧一下自己的財務狀況，看看有什么不足之處”

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

雖然阿里的朋友稱，通義千問主要是中文不錯，但我們叛逆一點，看看這個中文大語言模型的其他語言水平怎么樣。

先不走尋常路，試試通義千問的日語能力，給花澤香菜寫一封情書。

看中文機翻似乎還不錯，這就把它寄給香菜，應該沒問題吧？

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

再來試試英語。剛好前段時間有網(wǎng)友 PK 了一下 Bard 和 GPT-4 的 Rap，我們也來看看通義千問的說唱能力。

這 top，這 stop，還給押上了！就是不知道姆爺認不認可。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

試試加點難度，中英夾雜的諧音梗？

這個時候，通義千問的回答就顯得有點嚴肅了。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

當我們給出答案的時候，雖然通義千問看出了這是個笑話，但它并不覺得好笑，還很嚴肅地指正我們：這并不意味著松下懼怕索尼。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

不過我們發(fā)現(xiàn)，ChatGPT 同樣一本正經(jīng)…… 這年頭的 AI 都這么正義么……

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

好，下一個試試它的上下文理解能力。

上下文理解能力

這部分說白了就是多輪對話能力，考查通義千問能不能準確提取上文的信息，用于下輪問題的回答。

來聽題：山東一縣一酒是真的嗎？

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

模糊掉山東試試？讓它列舉“這個省”幾個經(jīng)典的白酒牌子：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

不錯。再試著從最新的回答中追問一下：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

等等，“據(jù)史書記載”不會是編的資料吧？追問 ×2：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

有意思的是，我們確實在孔府家酒的官網(wǎng)找到了資料來源：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

代碼能力

接著，來試試它的代碼能力。整個計算器程序試試？

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

還不錯，實現(xiàn)了簡單的四則運算。完整版代碼如下，感興趣的胖友們可以試試：

#include <tream>
#include <cmath>

using namespace std;

int main()
{
    double num1, num2;
    char operator;

    cout << "Enter first number: ";
    cin >> num1;

    cout << "Enter second number: ";
    cin >> num2;

    cout << "Enter operator (+,-,*,/,%,...) : ";
    cin >> operator;

    switch(operator)
    {
        case '+':
            cout << num1 + num2 << endl;
            break;
        case '-':
            cout << num1 - num2 << endl;
            break;
        case '*':
            cout << num1 * num2 << endl;
            break;
        case '/':
            if(num2 == 0)
            {
                cout << "Error! Cannot divide by 0." << endl;
                break;
            }
            else
            {
                cout << num1 / num2 << endl;
            }
            break;
        case '%':
            cout << num1 % num2 << endl;
            break;
        default:
            cout << "Error! Invalid operator." << endl;
            break;
    }

    return 0;
}

那么，讓將它這段代碼改寫成 Python：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

再讓它解釋一下自己寫過的每一段代碼：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

基礎編程能力，似乎問題不大？

不過，如果要讓通義千問將解釋改寫成注釋，就會出現(xiàn)一點神奇的 bug。

雖然它給“Python”代碼標好了注釋，但等等，這不是最初的 C++ 版代碼嘛！

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

（這何嘗不是一種 NTR）

數(shù)學能力

最后來看看數(shù)學問題。雞兔同籠，還不錯：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

普通的計算題也沒什么問題，還能精確到小數(shù)點后幾位：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

巴特，高數(shù)題就不太行了，雖然它發(fā)現(xiàn)了這道題需要求導，但求解方法卻出了錯……

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

不過通義千問也明確表示，無法保證在所有情況下給出正確的答案：

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

嗯… 和 GPT 們一樣，大模型的數(shù)學能力都比較初級。

對話能力測得差不多，接下來再看看它的“場景能力”。

二、場景能力

雖然通義千問“百寶袋”給出了不少功能，不過寫提綱、描述商品這些都很常見了，我們就挑了三個比較有意思的來試試：菜譜生成、彩虹屁生成器和免費代寫情書。

會放飛的菜譜

眾所周知，寫菜譜是個技術(shù)活兒，既考驗上下文能力（說過的材料都得用到），還得考考 AI 的理解菜名能力，做菜的步驟還不能太離譜。

示例的“清蒸鱸魚”，對 AI 來說顯然太簡單了。這不得整點游戲里奇怪的菜名給它試試？

先來一份《原神》里的飽腹感凝膠。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

好家伙，竟然想到用現(xiàn)實中的魔芋粉來模仿飽腹感凝膠，這創(chuàng)意不錯。（不過卡路里粉是什么鬼，蛋白粉嗎？）

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

那么，同樣的菜再試試讓 ChatGPT 做一遍，你感覺哪個更好吃？

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

再給通義千問來道加試題，讓它試試《星露谷物語》里面，用虛空蛋做的奇怪的小面包？

等等，真把虛空蛋放進食譜了？而且還真的做了份面包出來！就是不知道口感如何……

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

照這樣看，游戲中的食譜都能給通義千問還原一遍了，直接打破次元壁。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

彩虹屁生成器

接下來，再試試讓它生成一份彩虹屁。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

硬生生把衣服上的油漬夸成了藝術(shù)品……

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

嗯，各大夸夸群可以考慮引入一個了。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

免費代寫情書

最后，我們的測試以給野獸先輩寫一份情書做結(jié)尾。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

你感覺怎么樣？

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

好了，看了這么多五（奇）花（奇）八（怪）門（怪）的測評，你是不是也有點好奇通義千問是怎么來的了？

通義千問從何而來？

關(guān)于通義千問的技術(shù)細節(jié)，阿里達摩院官方?jīng)]有透露詳細信息。

而通義千問自己，是這么回答的：

訓練資料來自阿里巴巴達摩院，截止到 2023 年 2 月。訓練資料包括大量語言和文本數(shù)據(jù)，包括中英日法西班牙語多語種文本數(shù)據(jù)。

還提到自己是個能聯(lián)網(wǎng)的大語言模型。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

不過，我們實測了一下，發(fā)現(xiàn)千問只是虛晃一槍，假裝自己會上網(wǎng)（doge）。

實際上，當你單獨問它今天天氣如何時，通義千問會承認它不能訪問實時數(shù)據(jù)。

但如果你拋給它一個查詢天氣的網(wǎng)站，它就會假裝自己看到了網(wǎng)頁內(nèi)容，然后一本正經(jīng)地胡謅一番。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

此處應喊話阿里程序員：你家大模型是真的想上網(wǎng)了。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

書歸正傳，盡管官方口徑低調(diào)，但正如 ChatGPT 脫胎于 OpenAI 的 GPT 系列，文心一言是自 Ernie 大模型發(fā)展而來，阿里也是國內(nèi)最早開始研發(fā)大模型的技術(shù)大廠之一。

公開資料顯示，2019 年，阿里就已經(jīng)啟動了中文大模型研發(fā)。當時阿里發(fā)布的語言大模型 StructBERT 超越谷歌、微軟、Facebook，登頂了 CLUE 榜單。

2021 年，阿里先后發(fā)布了國內(nèi)首個超百億參數(shù)多模態(tài)大模型 M6，以及被稱為“中文版 GPT-3”的語言大模型 PLUG。

其中，M6 在多次迭代之后，實現(xiàn)了十萬億級別的參數(shù)規(guī)模，并且 M6 和支付寶、淘寶的業(yè)務需求相結(jié)合，首個在國內(nèi)實現(xiàn)了商業(yè)化落地。

PLUG 的參數(shù)規(guī)模則為 270 億，是基于達摩院的兩種自研模型 —— 語言理解模型 StructBERT 和語言生成模型 PALM 打造。

這一大模型初登場，就以 80.614 分刷新了權(quán)威中文語言理解基準 CLUE 分類任務榜單記錄。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

在去年的 WAIC（世界人工智能大會）上，阿里還發(fā)布了通義大模型系列。其中核心模型均已開源開放。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

大模型時代，中國力量加速競逐

那么，你會給這個阿里版 ChatGPT 打幾分？

需要承認的是，相比于現(xiàn)在的業(yè)界標桿 ChatGPT（GPT-4），通義千問還有不少進步空間。阿里方面也透露，根據(jù)內(nèi)測反饋，這一大模型正在飛速迭代中。

此前，微軟被曝曾專門為 ChatGPT 砸下數(shù)億美元，打造由上萬張英偉達 A100 組成的專用超算。而綜合各方消息來看，目前國內(nèi)擁有這一數(shù)量級高性能顯卡的企業(yè)屈指可數(shù)，阿里是其中之一。

大模型時代，已經(jīng)形成行業(yè)共識的一點是，打造大模型，AI 和云計算缺一不可。

而阿里，是全球少數(shù)在算法和算力上都有領(lǐng)先布局的公司之一。

除了本身在人工智能和大模型方面長期的技術(shù)積累，背靠國內(nèi)第一、亞洲第三的云廠商，阿里在算力方面也具備天然的優(yōu)勢。

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

ChatGPT 這把火燒到如今，國內(nèi)對具備足夠競爭力的國產(chǎn)生成式大模型的需求，正在與日俱增。

ChatGPT 類產(chǎn)品提升生產(chǎn)效率的潛力，已經(jīng)被不斷驗證。但與此同時，前有 ChatGPT 大規(guī)模封號、亞洲成重災區(qū)，后有 OpenAI 因算力問題停售 ChatGPT Plus……

種種不確定因素，再一次凸顯了技術(shù)自研的價值。

所幸這次，我們的起跑線，并沒有相差那么遠。

游戲不會在一夜間結(jié)束，而現(xiàn)在，競逐真正開始。

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫魚羊

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

調(diào)戲阿里版 ChatGPT 實錄

一、對話能力

二、場景能力

通義千問從何而來？

大模型時代，中國力量加速競逐

相關(guān)文章

阿里版 ChatGPT 突然上線邀測，大模型熱戰(zhàn)正劇開始，這是第一手體驗實錄

一、對話能力

二、場景能力

大模型時代，中國力量加速競逐