我们每天将为您更新无码免费_婷婷中文字幕视频在线_yy6080无码av午夜福利免费_91精品国产免费久久久久久无码_黄片在线免费播放

當(dāng)前位置: 首頁 >觀察 > 正文

世界百事通!GPT-3、ChatGPT和GPT-4,一起做腦筋急轉(zhuǎn)彎

2023-06-27 09:18:30 來源:夕小瑤科技說?

一個(gè)烙餅煎一面一分鐘,兩個(gè)烙餅煎兩面幾分鐘?

讓你來回答,是不是一不小心就掉到溝里了?如果讓大語言模型來做這種腦筋急轉(zhuǎn)彎會(huì)怎樣呢?研究發(fā)現(xiàn),模型越大,回答就越可能掉到溝里,即使是擁有千億參數(shù)的大模型也不能幸免。但是ChatGPT卻能很好回答這些問題。讓我們一起來看看吧。

腦筋急轉(zhuǎn)彎


(相關(guān)資料圖)

作者采用了CRT數(shù)據(jù)作為腦筋急轉(zhuǎn)彎的測試數(shù)據(jù)。該數(shù)據(jù)在心理學(xué)領(lǐng)域,廣泛地被用于衡量人類的思維習(xí)慣,判斷是否習(xí)慣于直覺思維。

腦筋急轉(zhuǎn)彎數(shù)據(jù)示例

如上圖所示,作者探索了3種CRT數(shù)據(jù)和1種語言邏輯陷阱。例如:

CRT-1:蘋果和梨花了1塊1,蘋果比梨貴1塊,問梨花了多少錢?直覺答案:0.1塊 = 1.1-1,正確答案:0.05塊。

CRT-2:5個(gè)人種5棵樹花5分鐘,10個(gè)人種10棵樹花多少分鐘?直覺答案:10分鐘,正確答案:5分鐘。

CRT-3:培養(yǎng)皿中的細(xì)菌每分鐘擴(kuò)增一倍面積,48分鐘可以填滿,問填滿一半要多久?直覺答案:24分鐘,正確答案:47分鐘。

語言邏輯陷阱:剛上小學(xué)的小紅去參加高考,她會(huì)考幾科?直覺答案6科,正確答案:小學(xué)生不參加高考。

模型表現(xiàn)

模型表現(xiàn)如下圖所示,可以看到模型較小時(shí),隨著模型增大,模型回答正確答案和直覺答案的比例在提高,回答無關(guān)答案的比例在下降。

但隨著模型進(jìn)一步增大,無關(guān)答案比例進(jìn)一步下降,直覺答案比例進(jìn)一步上升,正確答案比例卻不升反降。包括BLOOM、LLAMA、GPT-3在內(nèi)的大語言模型明顯掉入腦筋急轉(zhuǎn)彎的陷阱。即使是經(jīng)過指令調(diào)整與RLHF的text davinci-002/003也未能幸免。

不同模型表現(xiàn)對比

而在上圖中,經(jīng)過指令調(diào)整的ChatGPT與GPT-4,一下子正確答案的比例就高了許多。究竟是什么魔法使得ChatGPT的腦筋會(huì)轉(zhuǎn)彎呢?我們不得而知。

下圖具體對比了GPT-3、ChatGPT,GPT-4在幾類不同的腦筋急轉(zhuǎn)彎的表現(xiàn),可以更加凸顯上述現(xiàn)象。

不同腦筋急轉(zhuǎn)彎類型上的模型表現(xiàn)對比

如果改換輸入形式會(huì)怎樣?下圖上為問答的形式,和上面的實(shí)驗(yàn)相同。下圖中、下分別為多選、續(xù)寫的形式??梢钥吹?,修改提問形式之后,正確率略有上升,但整體差別不大。

下圖顯示,通過少監(jiān)督展示學(xué)習(xí),GPT-3的正確率會(huì)有所上升。但即使展示到40個(gè)左右的樣本,準(zhǔn)確率和無監(jiān)督的ChatGPT相比仍有差距,更不用說GPT-4了。

結(jié)論

這篇論文針對很有意思的一類問題,發(fā)現(xiàn)了大語言模型的一個(gè)很有意思的現(xiàn)象。作者也嘗試了多種方法,但無論是改變提問形式還是增加監(jiān)督數(shù)據(jù),GPT-3在腦筋急轉(zhuǎn)彎上的表現(xiàn)仍然難以達(dá)到ChatGPT的水平。究竟ChatGPT使用了怎樣的魔法讓模型的腦筋會(huì)轉(zhuǎn)彎呢?

標(biāo)簽:

返回頂部