0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

從詞語意義到關系推斷,ChatGPT是如何理解人類語言的?

阿爾法工場研究院 ? 來源:阿爾法工場研究院 ? 2023-04-21 09:32 ? 次閱讀

導語:這是一個革命性的技術,對于許多知識工作者來說,從市場營銷到工程師,從招聘人員到社會工作者,GPT將改變一切。

現(xiàn)在,你可能已經(jīng)聽說過OpenAI的ChatGPT,或者任何一個替代品GPT-3、GPT-4、微軟的Bing Chat、Facebook的LLaMa甚至谷歌的Bard。

它們是可以參與對話的人工智能程序。它們非常聰明,很容易被誤認為是人類,并能熟練完成各種任務,從寫論文到創(chuàng)建網(wǎng)站。

一臺電腦怎么能進行這樣的對話呢?讓我們來看看它是如何工作的。

一種概率性的方法

自然語言最簡單的模型是一個天真的概率模型,也被稱為馬爾可夫鏈 1 。這個想法很簡單:取一個參考文本,越長越好,然后學習單詞序列的概率。例如,給定一個句子:

The cat eats the rat. 貓吃了老鼠。

該模型將了解到,在 “貓 ”之后,總是有 “吃”,然后是“的”。但是在“the”之后,有50%的機會出現(xiàn)“貓”,50%的機會出現(xiàn) “老鼠”。

我們可以用這個模型來問一個不完整的句子后的下一個詞是什么。如果我們重復這個過程,我們可以生成整個句子。

如果我們要求模型生成一個句子,我們可以得到與訓練文本完全相同的東西:

The cat eats the rat. 貓吃了老鼠。

We could also get:我們也可以得到:

The rat.

The cat eats the cat eats the cat eats the rat.

貓吃貓,貓吃貓,貓吃老鼠。

每當我們到達“the”這個詞時,模型可以在 “老鼠”或 “貓 ”之間進行選擇。

當然,我們用來訓練模型的文本會更長,但你已經(jīng)可以看到一些問題。如果我們在整個維基百科網(wǎng)站上進行訓練,我們可以得到這樣的結果:

解釋他的行為,并因戴維斯的強烈語言和文化而被送入精神病院。

這個句子更復雜,詞匯更豐富,但它沒有任何意義,因為這個模型缺乏上下文:它只使用最新的詞來生成下一個詞。

我們可以擴展這個模型,以考慮到2、3或4個語境詞(“吃了”后面是“老鼠”),但那樣我們可能只是在重復輸入文本的整個部分:維基百科上有多少次完全相同的4個詞的序列?

從文字到意義

到目前為止,問題之一是,我們把單詞當作一堆沒有意義的字母。這個模型不理解 “the ”和 “a”之間的關系,“king”和“queen”之間的關系,等等。

我們怎樣才能從單詞中提取意義呢?試圖向計算機解釋意義和定義這些詞是一個死胡同,這個任務太復雜了(人們已經(jīng)嘗試了幾十年)。

你甚至怎么能代表一個詞的含義呢?好吧,有一樣東西計算機可以完全理解:數(shù)字。如果我們將單詞的含義表示為沿著幾個軸的數(shù)字,會怎么樣呢?

For instance: on a scale of -1 (masculine) to 1 (feminine), how do you evaluate this word?

例如:在-1(男性化)到1(女性化)的范圍內(nèi),你如何評價這個詞?

king: -1

queen: 1

table: 0

mustache: -0.9

或者:在-1(卑鄙)到1(美好)的范圍內(nèi),你如何評價這個詞?

wolf: -0.8

princess: 0.9

table: 0.1

gift: 1

或者甚至:在-1(名詞)到1(動詞)的范圍內(nèi),你如何評價這個詞?

king: -1

speak: 1

pretty: 0

以此類推。有了足夠的軸來評估單詞,我們應該能夠得到一個單詞的近似含義。問題就在于:你如何選擇軸,以及你如何評估所有的詞?

再一次,這項任務是如此復雜,以至于我們將讓計算機做艱苦的工作:我們只是告訴它,一起出現(xiàn)的詞有一個相關的含義。

有了足夠的文本,計算機就可以確定軸線和它們的評價。在我們的貓的例子中,貓和老鼠都是動物(近義詞),知道 “吃 ”是動物做的事情是很有用的。但是在數(shù)學教科書中,不會有貓或老鼠,因為它們的含義與教科書中的用詞相去甚遠。

我們得到的軸線往往難以解釋:我們可能會發(fā)現(xiàn)一些預期的軸,如男性/女性,但大多數(shù)會更復雜,要么只有在與其他軸結合時才有意義,要么同時代表幾個概念。

這種方法被稱為 “單詞嵌入”,將單詞表示為一個數(shù)字矢量。

從意義到關系

現(xiàn)在我們有了作為數(shù)字的意義,我們可以使用有趣的屬性:比如說我們可以把它們加起來。這意味著什么呢?好吧,比如把 “美國 ”和 “貨幣”相加(或者說把它們的數(shù)字表示相加)就會得到 "美元"(或者說與 "美元 "的數(shù)字表示接近的數(shù)字)?!懊绹?”+“首都”=“華盛頓”,“吃”+“名詞”=“餐”,等等。

我們也可以做減法:例如,“國王”--“男人”+“女人”=“女王”,或者 “華盛頓”--“美國 ”+“英格蘭”=“倫敦”。

我們還可以用它來尋找密切相關的詞,同義詞。

我們可以學習這些關系嗎?

通過使用這種數(shù)字單詞表示法,我們可以回到我們的初始模型,但這次是學習關系而不是單詞。

然而,由于關系更加復雜,我們需要更多的背景。值得慶幸的是,現(xiàn)在我們有了數(shù)字,我們可以使用近似值。

與其學習 “在'貓'后面有'吃'”,我們可以學習這樣的關系:“在一個冠詞和一個名詞之后,往往有一個動詞”,“動物經(jīng)常吃、喝和跑”,“老鼠比貓小”,以及 "你只能吃比你小的東西"。當然,一切都用數(shù)字表示。

這些關系很復雜,所以我們需要大量的文本來訓練模型。它們被表示為一個方程式:設想 y=a?x1+b?x2+c,但有更多的輸入 (不同的x1) 和參數(shù)(a、b和c)。

現(xiàn)在,不是按照概率從一個詞到另一個詞,而是每個軸(如男性/女性)都有一個方程式。這個模型總共有幾千億,甚至幾萬億的參數(shù)。這使得它能夠考慮到一個非常復雜的問題。這使它能夠考慮到更大的背景:

20個字可以讓它建立具有正確結構的簡單句子。

100個字可以讓它在一個小段落中發(fā)展一個簡單的想法。

有了千言萬語,它可以進行對話而不至于失去方向。

最大的模型有20000字左右,這使它們能夠閱讀整篇文章、一個短篇故事或進行長時間的對話,同時在生成下一個字之前仍然考慮整個背景。

歸根結底,一切都是一個規(guī)模問題:一個更大的模型可以學習更多的關系,并考慮到更多的背景。

GPT的優(yōu)勢和劣勢是什么?

GPT能夠熟練地生成看起來像人類所寫的文本。它能夠有邏輯地連接各種想法,為它們辯護,適應環(huán)境,進行角色扮演,并且(尤其是最新的GPT-4)避免自相矛盾。

不幸的是,它很可能會撒謊,或者說在沒有數(shù)據(jù)的情況下,讓它的想象力肆意發(fā)揮。詢問一個數(shù)學問題的結果,有可能得到一個近似的甚至是完全錯誤的答案。

鑒于訓練數(shù)據(jù)在2021年9月停止,當被問及當前事務時,它將編造一些東西。為了避免這種情況,Bing Chat和Google Bard將模型連接到搜索引擎(Bing或Google),讓它請求最新的信息。

為了有效地使用GPT,必須將其應用于模糊和容錯的任務(生成營銷電子郵件),或容易驗證的任務,無論是由(非AI)程序還是由循環(huán)中的人類。

這個模型能思考嗎?

現(xiàn)在我們知道了它的工作原理,第一個答案是否定的:該模型是一個美化的數(shù)學方程,可以生成下一個單詞的概率。

然而,這值得考慮我們自己的大腦:我們有一個相互連接的神經(jīng)元網(wǎng)絡(1000億)(每個神經(jīng)元有10 000個連接),對環(huán)境作出反應,從經(jīng)驗中學習,并產(chǎn)生一個適當?shù)模ǖ茈y準確預測)答案。

換句話說,除了我們的算法是化學的而不是數(shù)字的之外,結構是相似的。

What are the differences then? 那么有什么不同呢?

3個數(shù)量級的復雜性:人類大腦的連接比GPT-4的參數(shù)多1000倍。因此,它可以處理更復雜的情況。

持續(xù)的學習:大腦一直在學習,包括在對話期間,而GPT在對話開始之前就已經(jīng)完成了訓練。

限于字數(shù):GPT接口僅限于單詞。然而,正如我們所看到的,里面有一個語義系統(tǒng),只是在最后一步才被轉化為單詞??梢韵胂?,訓練這樣一個模型來控制機器人(給定足夠的訓練數(shù)據(jù))是可行的。

有限的輸入:GPT知道的關于對話的唯一事情是文本。高達60%的人類交流是非語言的:語氣、聲音的節(jié)奏、面部表情,甚至一些潛意識的因素,如氣味,都起著一定的作用。GPT錯過了所有這些。

我們可以提到的其他差異是在行為層面:

GPT很難一致地應用邏輯規(guī)則,它更像是一種盡力而為的情況。具有諷刺意味的是,它不知道如何進行數(shù)學運算。但這與一個小孩子相當。

GPT沒有情緒:人類的情緒涉及大量的腺體和荷爾蒙,與大腦有復雜的相互作用。然而,GPT從人類之間的對話中學到了與情感狀態(tài)相關的行為。

它能夠表現(xiàn)得像有情緒一樣,這算不算是什么?一些對話記錄顯示,GPT的行為就像它意識到自己是一個程序一樣,有時會問一些存在性問題。

你可以說GPT不是有意識的。意識的定義經(jīng)常發(fā)生變化,取決于人,但它經(jīng)常被定義為只有人類才有資格獲得意識。如果一個程序的行為方式與人類無異,我們會同意它是有意識的嗎?

中國房間論證 3 持相反意見:如果有可能在自己不懂中文的情況下,通過遵循指令來冒充講中文的人,那就意味著只是 "遵循程序 "的計算機并不懂中文,因此也就沒有意識。


對社會有什么影響?

我無法預測未來,尤其是在一個革命性技術的黎明,但要知道:這是一個革命性的技術。對于許多知識工作者來說,從市場營銷到工程師,從招聘人員到社會工作者,GPT將改變一切。

就像裝配線改變了手工業(yè)者的工作,計算器和計算機改變了會計,大眾傳媒改變了政治一樣,GPT將改變知識工作者的世界。

誠然,所有這些工作不會在一夜之間消失:我們?nèi)匀挥泄そ澈蜁嫀煟谀愕臓I銷部門曾經(jīng)需要一個由10個人組成的團隊,也許一兩個配備GPT的員工就可以填補這個角色。

就像很多科學或工業(yè)進步一樣,這種變化會影響到很多人:有些人將不得不改變職業(yè)或學習將GPT融入他們的職業(yè);有些人將失去他們的工作。

新的職位將由GPT直接創(chuàng)造(如Prompt工程師,可以 “與機器對話 ”的人)或間接地使產(chǎn)品公司更容易創(chuàng)建。

很難知道確切的后果,但我們正處于一個新階段的開始,許多事情將發(fā)生變化,擁有技術技能的人處于優(yōu)勢地位,企業(yè)家有一個全新的機會領域。

另一方面,許多沒有準備好改變的人、沒有技能的人或沒有能力再教育的人受到了威脅。

GPT會破壞社會嗎?

有些人因為人工智能而擔心世界末日:從《黑客帝國》到《終結者》,這是在反烏托邦科幻小說中常見的特例。一般來說,這兩種情況是:

終結者的情景:人工智能是為了贏得一場戰(zhàn)爭而制造的,并獲得了軍事資源,也許是由一個獨裁者制造的,并被賦予了生存本能。人類試圖阻止它,并將其視為一種威脅,人工智能做出了激烈的反應。

回形針優(yōu)化器:在這個寓言中,人工智能的任務是創(chuàng)造盡可能多的回形針。在耗盡了地球上的可用資源后,它轉向了下一個最可用的碳源:人類。

另一個版本是人類試圖阻止機器;人工智能意識到,要想和平地制造回形針,它必須擺脫人類。它就像邪惡的精靈,扭曲了你的愿望,給了你所要求的東西,而不是你真正想要的東西。

需要認識到的一點是,(目前)GPT只能產(chǎn)生文本。當然,單純的文本在錯誤的手中可能是危險的(畢竟,一個獨裁者 “只是說話”),但就其本身而言,GPT不能做任何事情。

然而,它可以成為邁向更有能力的系統(tǒng)的第一步:將GPT的衍生物用于控制機器人、軍事決策助手等。

我們將需要謹慎行事,如果進展證明是不可控制的,或者至少是無法控制的,我們就會介入。

從積極的方面看,一些人工智能專家積極研究防范這些情況的方法,因此可能有一些安全的前進方式。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1792

    文章

    47514

    瀏覽量

    239246
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48976
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7865

原文標題:從詞語意義到關系推斷,ChatGPT是如何理解人類語言的?

文章出處:【微信號:alpworks,微信公眾號:阿爾法工場研究院】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    語言模型:原理與工程實踐+初識2

    的一系列變革。 大語言模型是深度學習的應用之一,可以認為,這些模型的目標是模擬人類交流,為了理解和生成人類語言。為此,模型需要在大量文本數(shù)據(jù)
    發(fā)表于 05-13 00:09

    名單公布!【書籍評測活動NO.34】大語言模型應用指南:以ChatGPT為起點,入門精通的AI實踐教程

    ChatGPT為起點,入門精通的AI實踐教程(全彩)》 一書將幫助大家更好地理解和使用大語言模型,即使你對人工智能技術或編程技術一竅不通
    發(fā)表于 06-03 11:39

    NLPIR語義分析是對自然語言處理的完美理解

    幫助理解句子的意思,通過分析找出詞義、結構意義及其結合意義,從而確定句子所表達的真正含義,而語義信息的標記需要包含概念完全集與關系圖的支持,需要對句法成分做出細致的語義分類,它一般應包
    發(fā)表于 10-19 11:34

    不到1分鐘開發(fā)一個GPT應用!各路大神瘋狂整活,網(wǎng)友:ChatGPT就是新iPhone

    這個說法并不準確。盡管ChatGPT語言模型已經(jīng)在一定程度上改變了我們獲取信息、學習知識的方式,但它們并不能替代人類進行創(chuàng)造性思考和創(chuàng)造性活動。 雖然一些人可能會利用ChatGPT
    發(fā)表于 11-19 12:06

    利用機器視覺技術處理語意理解將會有效提高指令周期

    機器存在的目的無非是協(xié)助人類進行各式工作,將人類從無聊繁瑣的事物中解放。 由于沒有一個行業(yè)不需要語言,每一個行業(yè)也都有特殊的文字與行話,因此,語意
    發(fā)表于 01-29 12:58 ?566次閱讀

    Google推出新的搜索算法,可以更好地理解人類語言

    谷歌將該技術稱為BERT(雙向神經(jīng)網(wǎng)絡編碼器)。之前,搜索引擎將每次搜索理解為一組詞語,得出相關的詞語結果。那么利用新技術,它不僅可以分析搜索中的主要詞語,還可以分析輔助
    的頭像 發(fā)表于 10-31 17:21 ?2246次閱讀

    如何使用計算機讓機器人理解人類語言以及含義

    和文化背景的復雜性,讓機器很難理解和解釋客戶提供的觀點性數(shù)據(jù),因此提取見解極具挑戰(zhàn)性。自然語言處理(NLP)和機器學習(ML)等工具使計算機能夠理解人類語言以及含義。 此外,情感分析是
    的頭像 發(fā)表于 05-17 16:19 ?3298次閱讀

    手勢識別幫助計算機理解人語言

    電子發(fā)燒友網(wǎng)站提供《手勢識別幫助計算機理解人語言.zip》資料免費下載
    發(fā)表于 10-28 10:16 ?0次下載
    手勢識別幫助計算機<b class='flag-5'>理解人</b>體<b class='flag-5'>語言</b>

    chatgpt是什么

    chatgpt是什么 ChatGPT,美國OpenAI 。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過學習和理解人類
    發(fā)表于 02-10 14:05 ?4w次閱讀

    chatgpt怎么用

    chatgpt怎么用 chatgpt怎么用?chatgpt 簡介 ChatGPT是一種語言模型,它被訓練來對對話進行建模。它能夠通過學習和
    發(fā)表于 02-10 14:22 ?5.8w次閱讀

    三張圖告訴你的ChatGPT是什么

    最近火熱的ChatGPT,是美國人工智能研究實驗室OpenAI開發(fā)的一種全新聊天機器人模型,它能夠通過學習和理解人類語言來進行對話,還能根據(jù)聊天的上下文進行互動,并協(xié)助人類完成一系列
    的頭像 發(fā)表于 02-13 16:15 ?8.6w次閱讀

    ChatGPT研究框架:生成式AI拐點來臨,商用落地前景分析

    市場概況看,ChatGPT已能覆蓋較多能力域,被視為AI平民化的里程碑,將帶動新一輪AI發(fā)展浪潮;技術路徑層面看,ChatGPT核心技術優(yōu)勢在于,其提升了
    的頭像 發(fā)表于 02-15 13:49 ?4259次閱讀

    ChatGPT聊聊SiC

    ChatGPT是由OpenAI開發(fā)的一種全新聊天機器人,它能夠通過學習和理解人類語言跟人對話,還能根據(jù)聊天的上下文跟人互動,并協(xié)助人類完成一系列任務。
    的頭像 發(fā)表于 02-26 09:26 ?1434次閱讀

    ChatGPT 是什么

    應用。 ChatGPT基于自然語言處理技術和神經(jīng)網(wǎng)絡模型,可以學習和理解人類語言的語法和語義,并能夠生成具有連貫性和邏輯性的自然語言文本,從
    發(fā)表于 06-27 13:55 ?2526次閱讀

    chatgpt是什么意思 ChatGPT背后的技術原理

      今天我們?yōu)榇蠹規(guī)淼奈恼?,深入淺出地闡釋了ChatGPT背后的技術原理,沒有NLP或算法經(jīng)驗的小伙伴,也可以輕松理解ChatGPT是如何工作的?! ?b class='flag-5'>ChatGPT是一種機器學習自然
    發(fā)表于 07-18 17:12 ?0次下載