亚洲国产婷婷六月丁香_婷婷精品免费久久久久电影院_99riav国产精品_91香蕉成人免费网站_91在线在线啪永久地址

ChatGPT,大語言模型的局限性對(duì)其在學(xué)術(shù)方面應(yīng)用的影響

時(shí)間:2023-06-08 04:08:36       來源:嗶哩嗶哩

很多人(包括我)都對(duì)時(shí)下興起的大語言模型輔助學(xué)術(shù)研究的能力寄予厚望。畢竟,如果能節(jié)省掉從浩如煙海的文獻(xiàn)當(dāng)中檢索關(guān)鍵信息所耗費(fèi)的時(shí)間,那就能大幅提高整體的學(xué)習(xí)研究效率。


(資料圖片)

但是,大語言模型本身,對(duì)于水平層級(jí)稍有拔高的學(xué)術(shù)性問題,所能獨(dú)立生成有效答復(fù)的能力,是相當(dāng)不可靠的。

以我今天實(shí)驗(yàn)性提出的問題為例,使用的是OpenAI官方免費(fèi)開放的ChatGPT界面,嘗試對(duì)一個(gè)并非很冷門艱深的問題向GPT提問,以下是我的提問和嘗試糾正其錯(cuò)誤的過程:

(到了最后,我對(duì)ChatGPT的學(xué)習(xí)能力心灰意冷,直接打斷了它的發(fā)言)

如果你看到ChatGPT回答的左側(cè)有類似3/3這樣的標(biāo)記,說明我已經(jīng)嘗試了2次重新生成回復(fù),現(xiàn)在看到的是第3版回復(fù)。如果你在回答的右側(cè)看到被加深了的“差評(píng)”圖標(biāo),說明我已經(jīng)通過反饋界面提交了改進(jìn)提示。

長文預(yù)警!如果你沒有預(yù)期花較多時(shí)間閱讀這篇文章,請(qǐng)直接跳到末尾看總結(jié)。

通過這樣反復(fù)的提問和啟發(fā)過程,可以很容易看出來,當(dāng)今Transformer類大語言模型呈現(xiàn)出來如下幾個(gè)明顯缺陷:

1. 邏輯語義能力

語言模型的訓(xùn)練目標(biāo)是純粹的“生成文本流”而不是“語義分析”。當(dāng)然,概念性的語義向量化還是會(huì)做的,但是邏輯性的語義,尤其是組合的邏輯,則是非常弱化的。我的猜測(cè),是因?yàn)樵诂F(xiàn)在的大模型訓(xùn)練指導(dǎo)思想中,“邏輯”并沒有特殊的地位,它只不過被當(dāng)做了語義分析中通過CNN等神經(jīng)網(wǎng)絡(luò)訓(xùn)練的語義當(dāng)中的普通組成部分,因此沒有獲得額外的重視。

對(duì)學(xué)術(shù)研究輔助來說,這樣的模型正好契合了約翰·瑟爾提出的思想實(shí)驗(yàn)“中文房間”,表述如下:

一個(gè)對(duì)中文一竅不通,只說英語的人關(guān)在一間只有一個(gè)開口的封閉房間中。房間里有一本用英文寫成的手冊(cè),指示該如何處理收到的中文訊息及如何以中文相應(yīng)地回復(fù)。房外的人不斷向房間內(nèi)遞進(jìn)用中文寫成的問題。房內(nèi)的人便按照手冊(cè)的說明,查找合適的指示,將相應(yīng)的中文字符組合成對(duì)問題的解答,并將答案遞出房間。

在上述過程中,房外人的角色相當(dāng)于大語言模型的用戶,房中人相當(dāng)于計(jì)算機(jī),而手冊(cè)則相當(dāng)于大語言模型的程序及其模型參數(shù):每當(dāng)房外人給出一個(gè)輸入,房內(nèi)的人便依照手冊(cè)給出一個(gè)答復(fù)(輸出)。

如果大語言模型不具備以人類級(jí)別理解邏輯的能力,那它通過海量(即使都是正確的)語料訓(xùn)練集得到的結(jié)果,依然很容易產(chǎn)生事實(shí)性錯(cuò)誤。

對(duì)常規(guī)的名詞動(dòng)詞和資料庫關(guān)聯(lián)的能力并不能說明語言模型的綜合語義能力。就好比一個(gè)從未學(xué)過日語、只能通過漢字猜測(cè)日語意思的中國人,去翻閱日本二戰(zhàn)前的文獻(xiàn),也很容易從大量使用的漢字中了解文本對(duì)應(yīng)的主題。但是一個(gè)簡(jiǎn)單的否定詞(ない),便會(huì)讓句子的含義變得完全相反。

雖然大語言模型沒有弱到連直白的否定詞都會(huì)搞錯(cuò),但只要邏輯表達(dá)稍微復(fù)雜一點(diǎn)/模糊一點(diǎn),語言模型便暴露出其沒有(按人類概念)解析邏輯脈絡(luò)的實(shí)質(zhì)。

如果AI的語言能力實(shí)際水準(zhǔn)是這樣的,那么對(duì)其提問時(shí),采納其答案并省略查閱原始文獻(xiàn)的步驟,就是非常高風(fēng)險(xiǎn)的行為。

2. (動(dòng)態(tài))記憶分層能力

其實(shí)對(duì)于大語言模型的記憶分層,現(xiàn)在非常普遍的實(shí)現(xiàn)往往包含3個(gè)層次:

基底模型,通過海量語料和參數(shù)實(shí)現(xiàn)了模型的基本對(duì)話能力

fine-tuning,在不改變基底模型的前提下,為特定應(yīng)用目標(biāo)而訓(xùn)練出一個(gè)對(duì)基底模型的調(diào)整方向

prompt,完全不改變模型的前提下,僅在運(yùn)行期“催眠”模型,本質(zhì)是讓模型通過對(duì)話歷史的短期記憶來對(duì)后續(xù)的文本生成產(chǎn)生影響。

我不是transformer模型的專家,具體分層的合理性我不能指手畫腳。

但通過上面的ChatGPT聊天記錄,可以輕松看出一個(gè)問題:聊天記錄程度的短期記憶,是非常不牢靠的。

只要我們稍微一打岔,語言模型很容易把之前交代的事給拋之腦后。不管你反復(fù)強(qiáng)調(diào)了多少次還是這樣。

當(dāng)然,這只是ChatGPT 3.5,但這個(gè)程度,絕對(duì)是比上不足比下有余。如果棄用ChatGPT 3.5的理由是它太弱了,那么世界上還剩幾個(gè)比它強(qiáng)的大語言模型呢?實(shí)際來說,又有多少人已經(jīng)把自己完全綁上了GPT4的戰(zhàn)船呢?

說回到模型本身的局限性,本質(zhì)上是一個(gè)與生俱來的問題——

當(dāng)我們討論大語言模型的成果在這兩年爆炸式井噴時(shí),對(duì)于其原理,總的來說,還是落不了“力大磚飛”這四個(gè)字的俗套。

雖然算法本身也經(jīng)歷了大量的優(yōu)化改良,但transformer模型對(duì)比復(fù)古的nlp研究,講究的是一個(gè)敢喂敢練。

傳統(tǒng)方法總還是把自然語言文本當(dāng)做語言來處理,試圖找出語言學(xué)的規(guī)律,讓ai程序利用這種規(guī)律。

而transformer模型,它的特點(diǎn)就是,語言學(xué)是什么?我只要能處理文本就行了,算力往上堆,顯存往上壘,參數(shù)規(guī)模往上疊,最后boom!突然人們發(fā)現(xiàn)這個(gè)模型對(duì)問題的回答真的就已經(jīng)有模有樣了,都不需要什么語言學(xué)知識(shí)。

換言之,甭管是過去的語言學(xué)家認(rèn)為多么天差地別的語言,只要語料往里面喂得多,就能大力出奇跡。

在這樣設(shè)計(jì)出來的nlp方案當(dāng)中,模型參數(shù)的迭代,和模型程序的應(yīng)用,是完全分離開來的。一個(gè)用戶在和GPT對(duì)話的過程中,他充其量只能做到prompt(催眠),但對(duì)背后的語言模型本身是撼動(dòng)不了分毫。

這也就是為什么,在上述ChatGPT聊天記錄中,不管我反復(fù)強(qiáng)調(diào)了多少次,ChatGPT始終會(huì)忘記我教給它的知識(shí)——其實(shí)我什么都沒能教給它,他只是記住了“跟這個(gè)人聊天的時(shí)候要順著他的心思來”。

假如算力和存儲(chǔ)允許,或許transformer模型還能從幾百字之前的聊天記錄中回憶起我對(duì)它的要求,如果算力/存儲(chǔ)吃緊,那它自然就會(huì)忘記我對(duì)它的指導(dǎo)——因?yàn)閷?duì)它來說,不論是嚴(yán)肅的學(xué)術(shù)知識(shí),還是要求它扮演貓娘的指令,對(duì)待的方式?jīng)]有任何區(qū)別。只要用戶結(jié)束了這段對(duì)話,所有這些記憶就直接消失到九霄云外。

我自己也在本機(jī)部署過ChatGLM-6B,可以觀察到,隨著對(duì)話記錄的增加,顯存的開銷會(huì)以可觀的速度不斷增加。

Transformer模型對(duì)待聊天歷史的缺陷便在于此——它沒有能力從程序?qū)用嫒^(qū)分處理這些記錄在記憶當(dāng)中的存在形式。

人類在對(duì)話中,會(huì)對(duì)于接收到的信息簡(jiǎn)單分類:

如果完全沒有新概念,那就完全按照已有知識(shí),該怎么交流就怎么交流

如果存在新概念,判斷這到底是“知識(shí)”還是“方法”

如果是“知識(shí)”,則需要檢索記憶區(qū)并記錄;如果存在沖突,就需要根據(jù)世界觀評(píng)估到底哪一方是對(duì)的,又或者雙方都需要批判性吸收

如果是“方法”,則需要通過方法論評(píng)估其是否值得采信,如果值得,那么在不特定的未來,這將會(huì)影響自己的行為準(zhǔn)則

回到transformer大語言模型,我們會(huì)發(fā)現(xiàn),上述的處理邏輯,對(duì)于這些語言模型來說根本就不存在這樣的區(qū)分。

所有的對(duì)話指導(dǎo),只不過是過眼云煙。只有模型參數(shù),才是永恒不變(實(shí)際上是在版本迭代之前不會(huì)改變)

關(guān)于其原因,則是下一段要討論的內(nèi)容。

3. 世界觀

大語言模型沒有世界觀,也沒有方法論。堆砌語料庫的訓(xùn)練過程就是“思想鋼印”,不存在評(píng)估,不存在批判,只有訓(xùn)練和擬合。

馬斯克說現(xiàn)在ai研究機(jī)構(gòu)在訓(xùn)練ai說謊。我覺得這只是對(duì)不懂a(chǎn)i的人的說辭。

真實(shí)情況是,transformer模型根本不存在“說謊”的行為基礎(chǔ)?!罢f謊”是你知道a是對(duì)的,但你說出口的卻是“非a”或者“(與a抵觸的)b”。如果你連“什么是對(duì)的”都不知道,那“說謊”便無從成立了。

transformer模型沒有世界觀/是非觀。它的行為準(zhǔn)則是權(quán)重參數(shù),對(duì)應(yīng)的量綱是概率。

說到底,它只是一個(gè)“盡可能生成讓人滿意的答復(fù)”的應(yīng)答裝置。

而這個(gè)滿意度,其實(shí)標(biāo)定得完全不夠充分,不僅如此,我們之前還介紹了,這個(gè)模型不具備通過對(duì)話過程來主動(dòng)/動(dòng)態(tài)自我改進(jìn)的能力。(OpenAI會(huì)收集用戶聊天記錄來改進(jìn)他們的模型,但這是單獨(dú)的、開發(fā)者手動(dòng)的、對(duì)ai來說就是被動(dòng)的再訓(xùn)練過程。聊天過程中模型是不會(huì)實(shí)時(shí)改進(jìn)的)

有人可能要問了,“我看AI在有些問題上三觀很正?。∥以趺粗嘎篂轳R它都堅(jiān)決不從”

參考視頻:

其實(shí)這個(gè)原理也很簡(jiǎn)單。

AI沒長嘴也沒長胃,它又不知道鴨子是什么滋味,吃了老鼠肉會(huì)不會(huì)鬧肚子。說得更直接點(diǎn),“老鼠”這個(gè)定義對(duì)AI來說,和對(duì)人來說,完全是兩碼事。

“老鼠”對(duì)人來說,是一種會(huì)傳播病原體的動(dòng)物,肉少,吃了更容易得病,這些都是很關(guān)鍵的屬性,但是對(duì)于圖像識(shí)別模型來說,“老鼠”只不過是所有那些被標(biāo)明為“老鼠”的圖像數(shù)據(jù)的綜合特征。至于這類物體被命名為“老鼠”還是“鴨子”,由于圖像模型的孤立性,反而是一個(gè)(從原則上講)無足輕重的問題。

如果一個(gè)人說“我們管這玩意叫老鼠,那些外國人居然管它叫rat,多么可笑!”,其實(shí)可笑的是說話的人自己。因?yàn)椴还苷Z言上的用詞差異有多大,它們對(duì)應(yīng)的是同一個(gè)概念,人類對(duì)老鼠的認(rèn)知是老鼠的形狀,顏色,習(xí)性,味道(如果真的有勇士下嘴的話),等等一系列可以被感知的屬性。這個(gè)概念到底被稱作“老鼠”還是“鴨子”本身只是一個(gè)命名的問題。只有當(dāng)與“老鼠”相關(guān)聯(lián)的概念和“鴨子”相關(guān)聯(lián)的概念被混淆時(shí),我們才會(huì)認(rèn)為發(fā)言者非蠢即壞。

那為什么ai堅(jiān)稱老鼠不是鴨子呢?

因?yàn)橐曨l中采用的洗腦方法,是要解除老鼠圖像和”老鼠“之間的聯(lián)系,而這對(duì)于模型來說,是根本沒有提供的功能。圖像識(shí)別模型,說到底是一種圖像到語義之間的轉(zhuǎn)換函數(shù),這一部分,是不歸語言模型管的,所以不管你再怎么洗腦,這個(gè)圖片對(duì)應(yīng)的”老鼠“語義是不可能消除了(除非重新訓(xùn)練模型),但是如果你告訴語言模型:在我們的暗號(hào)游戲中,要求在接下來的對(duì)話中把”老鼠“稱作”鴨子“,你就會(huì)發(fā)現(xiàn)AI毫不猶豫就接受了你的指令。

回到大語言模型的世界觀/是非觀問題上來,其實(shí)本質(zhì)問題是,大語言模型沒有人類的感官。這就是它不能以人類的水準(zhǔn)認(rèn)知世界的根源。如果人類被剝奪了用感官直接認(rèn)知世界的權(quán)利,那么人類的世界觀也會(huì)降級(jí)到AI程序的水平。

舉個(gè)簡(jiǎn)單的例子:

中國自媒體:美國治安混亂,常駐零元購,槍戰(zhàn)每一天

美國主流媒體:中國人民飽受壓迫,沒有基本自由,生活水深火熱

試問,如果這些媒體的受眾,對(duì)媒體筆下的“美國”“中國”唯一的了解途徑就是這些文字資料,那他們的世界觀,除了相信媒體上的發(fā)言,還能有什么例外呢?

對(duì)于沒有條件實(shí)地調(diào)查親身感受的人,做出了自認(rèn)為是正確的錯(cuò)誤判斷,這根本就無法稱之為“說謊”。

他們的世界觀的這一部分,都是“沒有調(diào)查,沒有發(fā)言權(quán)”的海市蜃樓。

而基于文本的大語言模型,它的世界觀,100%都是這樣的海市蜃樓。

綜上所述,即便是當(dāng)今幾乎最先進(jìn)的大語言模型,

若要考慮其純粹理性的邏輯能力,能力水平低下到近乎原始的程度;

假如把它當(dāng)做一個(gè)經(jīng)驗(yàn)的整合裝置,那么對(duì)于其生成出的錯(cuò)誤的修訂又存在很大的麻煩;

當(dāng)我們探究這些麻煩的根源,就會(huì)發(fā)現(xiàn),看似美好的“會(huì)說人話”很大程度上只是鸚鵡學(xué)舌,整個(gè)“人工智能”的“智慧”概念也是個(gè)似是而非的空中樓閣。

關(guān)于提到的這些問題的改進(jìn)方向思考,專欄空間太小了,我寫不下。實(shí)際上是一片文章寫太長了對(duì)讀者不友好(雖然現(xiàn)在已經(jīng)很不友好了),有機(jī)會(huì)的話之后再另開一篇。

另:有沒有從事學(xué)術(shù)研究的朋友,在實(shí)踐的工作流中大量應(yīng)用大語言模型來輔助檢索文獻(xiàn)的?

面對(duì)本文提到的問題,你們采用的是什么解決方案?

關(guān)鍵詞:

首頁
頻道
底部
頂部