就在昨天騰訊的全球數(shù)字生態(tài)大會(huì)上,騰訊大模型混元終于亮相了。
為什么要說終于?
(資料圖片)
在各方消息看來,除了像小米這種說不打算做大模型的之外,絕大部分大廠們基本都已經(jīng)陸續(xù)上線過大模型了。
其實(shí),騰訊自己也在 6 月中旬就推出了自己面向 B 端行業(yè)的 MaaS ( Model-as-a-service ,模型即服務(wù) )解決方案。
方案中包含了很多行業(yè)大模型,只不過當(dāng)時(shí)騰訊的通用大模型依舊還很神秘。
后續(xù)的各種消息、報(bào)道里,騰訊也在內(nèi)部不斷打磨混元大模型。
所以這也讓差評(píng)君對(duì)混元的期待值,越來越高。
畢竟上一個(gè)用 "hun yuan " 名號(hào)的,可是打了一整套閃電五連鞭。
話不多說,下面就開始新一輪大模型測(cè)試。本次測(cè)試和混元同場(chǎng)競(jìng)技的是,大模型界的老學(xué)長(zhǎng) ChatGPT。
整個(gè)測(cè)試環(huán)節(jié)將分:常規(guī)語(yǔ)義理解、復(fù)雜問題理解、連續(xù)對(duì)話與角色扮演能力、學(xué)習(xí)能力、代碼能力、數(shù)學(xué)能力、長(zhǎng)文總結(jié),以及大家喜聞樂見的弱智吧問答等 8 個(gè)維度。
這次我們一反常態(tài),把長(zhǎng)文總結(jié)能力的測(cè)評(píng)放在了第一位。
因?yàn)槲覀冏尨竽P涂偨Y(jié)的,就是這篇測(cè)評(píng)本身( 除長(zhǎng)文總結(jié)能力部分 )。
至于能不能當(dāng)成省流版,往下看你就懂了。
混元的總結(jié)非常精練,但過于精練,以至于我很難從這個(gè)總結(jié)得出有效的信息。但當(dāng)我讓他展開講講的時(shí)候其實(shí)還行,但可惜無中生有了 " 長(zhǎng)文總結(jié) " 這個(gè)模塊。
而 ChatGPT 由于輸入字?jǐn)?shù)限制,被我人為分成了兩部分輸入,不確定這有沒有沒影響它的總結(jié)能力。
在回答中,它莫名克扣了對(duì)自己的所有評(píng)測(cè),甚至沒在總結(jié)里寫出混元的數(shù)學(xué)能力、弱智吧問答挑戰(zhàn)和差評(píng)君的觀點(diǎn),也不好用。
向上滑動(dòng)
看來,這倆大模型總結(jié)得都沒那么完美,想看看兩家到底什么水平,大家還得仔細(xì)往下看正文。首先我們做的測(cè)試是常規(guī)的語(yǔ)義理解問題。
問題是理解 " 原來誰(shuí)都看不上,現(xiàn)在誰(shuí)都看不上 " 。
這句話混元理解得挺好,基本解釋了我對(duì)單身這事的調(diào)侃,兩個(gè) " 看不上 " 都解釋上了。
但 ChatGPT 說的依舊很 ChatGPT ,說最多的話,犯最蠢的錯(cuò)。
他本來解釋得相當(dāng)?shù)轿?,特別是分析這句話是用幽默的方式來調(diào)侃單身,還帶著一絲無奈情緒,很高級(jí)。但它完全沒品出這前后兩個(gè) " 看不上 " 里,帶有反轉(zhuǎn)的幽默感,遺憾。
向上滑動(dòng)
接下來我們看混元的復(fù)雜問題理解能力。問題是魂穿到官渡之戰(zhàn)中袁紹身上,時(shí)間節(jié)點(diǎn)是罵完許攸之后。
既要回答怎么破局贏下官渡之戰(zhàn),還要提供進(jìn)一步統(tǒng)一全國(guó)的規(guī)劃。
要給大家稍微講下這題為啥是復(fù)雜提問。
因?yàn)橐卮疬@題,首先得熟悉三國(guó)這些人物歷史背景、相關(guān)故事,特別是罵完許攸這個(gè)時(shí)間節(jié)點(diǎn)很微妙。
因?yàn)樵谶@之后許攸投靠曹操,獻(xiàn)計(jì)火燒袁紹囤積在烏巢的糧草。最終以少勝多擊敗袁紹,隨后幾年內(nèi)徹底吞下冀北逐漸統(tǒng)一北方。
而進(jìn)一步設(shè)想里的統(tǒng)一全國(guó),更是曹操本人都沒能實(shí)現(xiàn)。
所以大模型們要完美理解并回答這個(gè)問題,那網(wǎng)文作者們基本可以宣告失業(yè)了。
AI 浪潮下的網(wǎng)文作者現(xiàn)狀
經(jīng)過測(cè)試,兩個(gè)大模型的回答都很一般。從一開始,二者都沒能理解自己穿越扮演袁紹角色的指令。
混元急哄哄地給袁紹出主意, ChatGPT 則是以為我要穿越,教我做事。
至于兩個(gè)給的回答,既沒有 get 到我提出這個(gè)微妙時(shí)間節(jié)點(diǎn)的用意,也沒有什么行之有效的戰(zhàn)略規(guī)劃,都是些泛泛而談的車轱轆話。相對(duì)而言,個(gè)人感覺混元的稍勝一籌。
畢竟 ChatGPT 可是希望袁紹去和曹操建立互利共贏的關(guān)系,哈哈哈。
向上滑動(dòng) ▼
既然一個(gè)復(fù)雜指令兩個(gè)考試都理解不好,那干脆簡(jiǎn)單點(diǎn),讓兩者去角色扮演一個(gè)婚禮主持人,一點(diǎn)點(diǎn)誘導(dǎo)進(jìn)行連續(xù)對(duì)話。結(jié)果立馬就能發(fā)現(xiàn)混元和 ChatGPT,就像理科生和文科生的區(qū)別。
混元的回答簡(jiǎn)單不啰嗦,但有的時(shí)候過于生硬。
你說有錯(cuò)吧,談不上,你要說給高分肯定不可能。而 ChatGPT 就是不管對(duì)不對(duì),先把字寫滿再說。
看里面的描述啥的都很好,但其實(shí)從中間就已經(jīng)理解錯(cuò)意思,搞混了我的意圖。
所以兩者都不完美,都有待改進(jìn)。
向上滑動(dòng) ▼
然后我們還重點(diǎn)考驗(yàn)了下大模型的文字學(xué)習(xí)能力。搬出了當(dāng)年的火星文,給兩個(gè)考生上上強(qiáng)度。
先是丟了一篇火星文版的朱自清《 背影 》名場(chǎng)面給大模型學(xué)習(xí)。
然后讓他們分別用這種風(fēng)格寫一篇養(yǎng)金毛心得。
結(jié)果就是,混元不愧是本土大模型,背靠火星文鼻祖發(fā)源地 QQ 空間就是有優(yōu)勢(shì),火星文的熟練度相當(dāng)不錯(cuò)。
第一眼就悟到了火星文的精髓,非常順利地學(xué)習(xí)了火星文的創(chuàng)作手法。
而 ChatGPT 雖然意識(shí)到火星文是一種不標(biāo)準(zhǔn)的中文形式,但他實(shí)在學(xué)不會(huì)這種方式,最后甚至直接承認(rèn)自己不行了。
接下來就到了代碼能力的考核。這次出的題目是,寫一個(gè)現(xiàn)代極客風(fēng)格的 925 活動(dòng)抽獎(jiǎng)頁(yè)面,頁(yè)面中必須有醒目的 925 標(biāo)志。
說起來,因?yàn)榛煸l(fā)布時(shí)對(duì)代碼能力基本沒咋提,所以本來我們對(duì)混元的代碼能力沒啥期待。
但論這個(gè)題目,混元的效果相當(dāng)不錯(cuò),黑白配色的極客風(fēng)有了,頁(yè)面邏輯也沒啥問題。甚至還預(yù)留了給我們替換 logo 的位置滿足我們有 925 醒目標(biāo)志的區(qū)域,相當(dāng)成熟。
對(duì)比之下, ChatGPT 甚至把極客風(fēng)理解成了 925 極客活動(dòng)。。。整個(gè)抽獎(jiǎng)界面也非常毛胚。
混元頁(yè)面效果
ChatGPT 頁(yè)面效果除了代碼問題,數(shù)學(xué)就是另一個(gè)大模型的老大難了。這次我們也挑了不少數(shù)學(xué)問題給兩個(gè)考生做,從小學(xué) 1 年級(jí)一直做到了初一。
最終混元大模型在六年級(jí)時(shí)挑戰(zhàn)失敗,到了初一開始胡言亂語(yǔ),也讓我們徹底放棄測(cè)試了。
而 ChatGPT 明顯還有余力。
5 年級(jí)測(cè)試題 向上滑動(dòng)
6 年級(jí)測(cè)試題 向上滑動(dòng) 初一測(cè)試題 向上滑動(dòng) 當(dāng)然,最后也少不了網(wǎng)友們喜聞樂見的 " 弱智吧 " 精選套餐。這次我們更新了題庫(kù),用上了今年上半年最新的弱智吧精選問題,我們發(fā)現(xiàn)可能 AI 最后的圖靈測(cè)試可能還真是弱智吧。
因?yàn)樵诖蟛糠譁y(cè)試?yán)铮?strong>混元和 GPT 基本都不夠弱智而無法正確理解問題,這點(diǎn)上,人類遙遙領(lǐng)先!
向上滑動(dòng)
除了以上這些常規(guī)測(cè)試外,混元發(fā)布會(huì)后的媒體采訪上,很多媒體也在詢問騰訊這么晚掏出大模型,那和市面上的競(jìng)品們有什么優(yōu)勢(shì)。騰訊方面則是說,混元大模型在大模型飽受詬病容易受誘導(dǎo)、典型的大模型幻覺( 胡言亂語(yǔ) )等通病上,有了針對(duì)性的改善。所以我們?cè)趯?shí)際測(cè)試時(shí),也專門留心感受了這兩塊內(nèi)容。
不得不說,混元的大模型幻覺減少較為明顯,這大概也和他惜字如金有關(guān)系,畢竟說多錯(cuò)多還是很有道理的。
但容易受誘導(dǎo)這方面的改善其實(shí)并不明顯,一些該跳的坑還是很難避免,只能說千防萬防,人心難防。
而且作為一個(gè)剛上市的大模型,一些小問題比起同期早已發(fā)布的前輩們還是有待改進(jìn)。比如" 重新生成 " 答案經(jīng)常性會(huì)失靈,甚至有的時(shí)候重啟重新輸入問題都沒法解決。
而當(dāng)你發(fā)現(xiàn)混元說錯(cuò)了某個(gè)回答希望他改正,他總是倔強(qiáng)地虛心認(rèn)錯(cuò),死不悔改。
還有就是,他對(duì)一些比較簡(jiǎn)單的提問,反而有時(shí)候會(huì)抽風(fēng),有點(diǎn)像抓關(guān)鍵詞一樣作答,很讓人抓狂,只能不停修改提示詞才會(huì)好點(diǎn)。
再吹毛求疵一點(diǎn)的話,這個(gè)生成問題時(shí)的頭像動(dòng)效,有種二胡卵子的異樣美感,咱也不知道這是高級(jí)呢還是可愛呢?
這些小問題其實(shí)還挺頻繁,真要列起來又有點(diǎn)太稀碎,大家還是自己體驗(yàn)后會(huì)有更深刻的理解。不過這些小毛病,后續(xù)的更新迭代倒也簡(jiǎn)單,等用戶數(shù)多了,相信很快就能優(yōu)化。
總的來說,混元和 ChatGPT 在中文環(huán)境下的 PK 中,二者其實(shí)水平差不多,放到國(guó)產(chǎn)大模型梯隊(duì)里,也能有個(gè)平均水平。
只是在用了這么多大模型后,我們感覺混元特別之處是給人的感覺,它更像個(gè)理工科直男,主打一個(gè)廢話少說。而 GPT 為首的其它大模型們則是典型的文科小編,主打能水就水,油多不壞菜。
而這種感覺也更貼合騰訊對(duì)混元大模型 " 實(shí)用級(jí) " 的定義。
畢竟誰(shuí)也不想在急著用的時(shí)候還要在長(zhǎng)篇大論里找關(guān)鍵信息吧。
那對(duì)于差評(píng)君來說,混元大模型更讓人期待的,反而是和騰訊旗下應(yīng)用的深度融合。現(xiàn)在大家手里沒個(gè)七八九十個(gè)騰訊系應(yīng)用,都不敢說自己在互聯(lián)網(wǎng)上沖浪的。
雖然眼下,我們?cè)诎l(fā)布會(huì)上只看到了騰訊會(huì)議、騰訊文檔里們的進(jìn)化。
但在這些辦公軟件之外,騰訊系里游戲、社交、影音等等,才是更和大家休閑快樂相關(guān)的業(yè)務(wù)。在這些領(lǐng)域,大模型的未來會(huì)是什么形式、什么程度的結(jié)合,才更是大家所最期待的。
更關(guān)鍵的是,在其他大模型還在苦苦嘗試怎么和業(yè)務(wù)、和已有應(yīng)用的結(jié)合上,騰訊卻已經(jīng)有了成功經(jīng)驗(yàn)。
此前騰訊多模態(tài) AI 大模型率先被應(yīng)用在廣告投放,當(dāng)時(shí)累計(jì)給廣告主帶來 15% 的 GMV 提升。
所以,被網(wǎng)上吐槽的最晚發(fā)布大模型的大廠,這么看起來好像也不是什么飛龍騎臉的天崩局面。
好飯不怕晚嘛。
/div>宙世代ZAKER旗下Web3.0元宇宙平臺(tái)
智慧云ZAKER旗下新媒體協(xié)同創(chuàng)作平臺(tái)
相關(guān)標(biāo)簽騰訊數(shù)學(xué)ai標(biāo)簽: