深度學(xué)習(xí) | AMD|ChatGPT
最近,ChatGPT又引發(fā)了不少新聞。比如,香港大學(xué)已經(jīng)正式宣布,禁用ChatGPT,目的是防止論文抄襲。再比如,近日,不少美國(guó)企業(yè)已經(jīng)把ChatGPT應(yīng)用到了日常工作中,甚至代替了部分員工。據(jù)美媒報(bào)道,本月早些時(shí)候,一家提供就業(yè)服務(wù)的平臺(tái)對(duì)1000家企業(yè)進(jìn)行了調(diào)查,結(jié)果顯示,近50%的企業(yè)表示,已經(jīng)在使用ChatGPT;30%表示,有計(jì)劃使用ChatGPT。而在已經(jīng)使用ChatGPT的企業(yè)中,48%已經(jīng)讓其代替員工工作。ChatGPT的具體職責(zé)包括:客服、代碼編寫、招聘信息撰寫、文案和內(nèi)容創(chuàng)作、會(huì)議記錄和文件摘要等。
中國(guó)的商業(yè)力量也開始對(duì)ChatGPT進(jìn)行布局。除了百度和阿里的布局,前段時(shí)間美團(tuán)的原聯(lián)合創(chuàng)始人王慧文,也發(fā)布了一條AI英雄榜,說出資5000萬美元,要打造中國(guó)的OpenAI,也就是制造ChatGPT的那家公司。
ChatGPT是由OpenAI開發(fā)的大型語言模型,要求較高的算力才能支持其正常的運(yùn)行。目前OpenAI提供的ChatGPT-3模型需要數(shù)千億次的浮點(diǎn)運(yùn)算能力,并且需要超過350GB的存儲(chǔ)空間來存儲(chǔ)模型參數(shù)和相關(guān)數(shù)據(jù)。為了支持ChatGPT-3這樣的大型語言模型的運(yùn)行,需要使用大規(guī)模的GPU集群或者專門的超級(jí)計(jì)算機(jī)。在實(shí)際應(yīng)用中,為了提高性能和減少延遲,通常會(huì)使用分布式計(jì)算來支持模型的運(yùn)行。對(duì)于較小規(guī)模的語言模型,例如ChatGPT-2,也需要相對(duì)較高的算力才能正常運(yùn)行,通常需要使用高性能計(jì)算機(jī)或者GPU來支持模型的訓(xùn)練和推理。
Chat GPT的局限
要想知道,ChatGPT的局限到底是什么?它又會(huì)帶來什么樣的問題?必須得先了解,ChatGPT的本質(zhì)到底是什么?
一、ChatGPT的本質(zhì)
ChatGPT 的本質(zhì)是一種基于神經(jīng)網(wǎng)絡(luò)的自然語言處理模型,它通過深度學(xué)習(xí)技術(shù)來學(xué)習(xí)語言的規(guī)律和語義信息,并生成人類可讀的文本。
具體而言,ChatGPT 采用了一種被稱為“Transformer”的神經(jīng)網(wǎng)絡(luò)架構(gòu),它由多個(gè)編碼器和解碼器組成,可以有效地處理長(zhǎng)序列的文本數(shù)據(jù),并在學(xué)習(xí)中自動(dòng)地學(xué)習(xí)語言規(guī)律和語義信息。ChatGPT 還使用了大量的文本數(shù)據(jù)進(jìn)行無監(jiān)督學(xué)習(xí),使得模型具有較強(qiáng)的泛化能力和語言理解能力。
ChatGPT 的核心思想是基于預(yù)訓(xùn)練的方式,先在大規(guī)模語料庫(kù)上進(jìn)行無監(jiān)督訓(xùn)練,使得模型具有較強(qiáng)的語言理解和生成能力,然后在特定任務(wù)上進(jìn)行微調(diào),以適應(yīng)具體的應(yīng)用場(chǎng)景。這種基于預(yù)訓(xùn)練的方式已經(jīng)成為了自然語言處理領(lǐng)域的一個(gè)重要研究方向,并在各種文本生成和處理任務(wù)中取得了顯著的成果。
二、ChatGPT的局限
ChatGPT 作為一種語言模型,能夠在各種自然語言處理任務(wù)中表現(xiàn)出色。然而,它仍然存在一些局限性,包括:
1、數(shù)據(jù)偏差
ChatGPT 是基于大規(guī)模的語料庫(kù)進(jìn)行訓(xùn)練的,如果訓(xùn)練數(shù)據(jù)存在偏差,例如種族、性別、社會(huì)階層等方面的偏差,模型可能會(huì)產(chǎn)生與現(xiàn)實(shí)世界不一致的結(jié)果。
2、計(jì)算資源需求高
ChatGPT 模型的參數(shù)非常多,需要大量的計(jì)算資源進(jìn)行訓(xùn)練和推理。因此,只有大型機(jī)構(gòu)或公司才有能力訓(xùn)練和使用這種模型。
3、長(zhǎng)期依賴問題
雖然 ChatGPT 能夠處理大量的文本信息,但它仍然存在長(zhǎng)期依賴問題。在處理長(zhǎng)文本時(shí),模型可能會(huì)出現(xiàn)信息遺漏或信息重復(fù)等問題。
4、對(duì)話一致性問題
ChatGPT 在生成對(duì)話時(shí),可能會(huì)產(chǎn)生與上下文不一致的回答,導(dǎo)致對(duì)話的連貫性受到影響。
5、語義理解問題
ChatGPT 能夠生成人類可讀的文本,但其對(duì)語義理解的能力仍然有限。在處理某些復(fù)雜的語義問題時(shí),模型可能會(huì)出現(xiàn)錯(cuò)誤的回答。
雖然 ChatGPT 存在一些局限性,但隨著技術(shù)的不斷發(fā)展,相信這些問題也將逐漸得到解決。
ChatGPT 是否是AI的革命
在人工智能技術(shù)的發(fā)展歷程中,ChatGPT代表了自然語言處理技術(shù)的一個(gè)重要突破,為語言模型的研究和應(yīng)用提供了新的思路和方法。ChatGPT的成功表明,通過大規(guī)模數(shù)據(jù)的訓(xùn)練和深度學(xué)習(xí)技術(shù)的應(yīng)用,人工智能可以在自然語言處理領(lǐng)域取得更好的表現(xiàn)。
因此,可以說ChatGPT代表了人工智能技術(shù)的進(jìn)步和創(chuàng)新,但它并不是整個(gè)人工智能的革命,因?yàn)槿斯ぶ悄芗夹g(shù)的進(jìn)步還需要依賴于許多其他方面的技術(shù)和應(yīng)用,例如計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自動(dòng)化等等。
一、人形機(jī)器人
ChatGPT 促進(jìn)了人機(jī)交互能力的提升,加速了算法的采用。NLP技術(shù)帶來的人機(jī)交互能力,只有人形機(jī)器人才有必要,尤其是C端場(chǎng)景。截至2022年10月,Tesla已經(jīng)發(fā)布了Optimus人形機(jī)器人原型機(jī),需要配合算法,形成全面的軟硬件協(xié)同才能落地。我們認(rèn)為ChatGPT有望提升人形機(jī)器人的人機(jī)交互能力,加速人形機(jī)器人體驗(yàn)的提升。
在場(chǎng)景2C中,人形機(jī)器人需要基于NLP的人機(jī)交互能力。人形機(jī)器人在與C端用戶打交道時(shí),由于其人形形態(tài)特征,需要人機(jī)交互能力作為接受指令的入口。在人機(jī)交互技能中,NLP能力無疑是重中之重。人形機(jī)器人必須能夠理解人類的指令才能更好地完成各種任務(wù)。基于NLP的人機(jī)交互能力是類人機(jī)器人所需要的。
特斯拉Optimus人形機(jī)器人原型機(jī)于2022年10月發(fā)布,將在上海進(jìn)博會(huì)上首次面向公眾展出。2022年10月1日,特斯拉在AIDay發(fā)布了人形機(jī)器人Optimus原型機(jī),并于2022年11月5日在上海進(jìn)博會(huì)上展示了原件,現(xiàn)場(chǎng)展示的是附殼的二代機(jī)。雖然由于交貨時(shí)間短,運(yùn)行功能還不成熟,但現(xiàn)場(chǎng)展示版直立不動(dòng),但完成率高現(xiàn)場(chǎng)視頻顯示,樣機(jī)已經(jīng)可以完成物體搬運(yùn)、澆花等動(dòng)作。這是TeslaBot首次面向公眾展示,為后續(xù)B端、C端落地埋下伏筆。
上海進(jìn)博會(huì)現(xiàn)場(chǎng)展示的特斯拉人形機(jī)器人
二代版本訓(xùn)練時(shí)間短未能行走,還有出色的組合動(dòng)作和手部動(dòng)作。裝殼的最新版本(2代Optimus),這個(gè)版本剛出廠還沒有完全訓(xùn)練,現(xiàn)場(chǎng)也沒有展示其行走功能,但視頻顯示了四肢和細(xì)微的手部動(dòng)作組合,指關(guān)節(jié)快速執(zhí)行1、2、6、拳頭等動(dòng)作,展現(xiàn)高精度、高靈敏度,為未來功能迭代留下巨大想象空間。
現(xiàn)場(chǎng)視頻展示了 TeslaBot 手部精細(xì)度
以 AI 算法為核心的運(yùn)動(dòng)迭代展示了開創(chuàng)性的想法,從艱難移步到雙腳離地快速行走用了 5 個(gè)月的時(shí)間。在特斯拉之前,本田ASIMO與波士頓動(dòng)力機(jī)器人等其他人形機(jī)器人已經(jīng)存在很長(zhǎng)時(shí)間,能夠?qū)崿F(xiàn)的功能一般為直立行走、揮手、握手、搬運(yùn)物品、擰瓶蓋等。根據(jù)特斯拉發(fā)布會(huì)的官方公告,Tesla Optimus 僅開發(fā)了六個(gè)月,但已經(jīng)基本實(shí)現(xiàn)了直立行走、揮手、給植物澆水、搬箱子等算法功能。一口氣提升 4個(gè)月,軟件迭代高效。此時(shí),由于二代機(jī)才到貨一個(gè)月,還沒有完全調(diào)試好;但是,我們希望二代機(jī)在落地之后能夠在應(yīng)用中快速學(xué)習(xí),實(shí)現(xiàn)快速的技術(shù)進(jìn)步和可迭代性。
機(jī)器人共享汽車自動(dòng)駕駛算法
機(jī)器人是智能手機(jī)的超越版本,單靠硬件無法實(shí)現(xiàn),需要與軟件算法協(xié)同工作,形成全面協(xié)同。統(tǒng)一的硬件是機(jī)器人運(yùn)行的基礎(chǔ),需要高精度、高靈敏度和高力矩以滿足各種活動(dòng)對(duì)機(jī)器人活動(dòng)能力的要求。機(jī)器人的實(shí)際功能是通過綜合算法來實(shí)現(xiàn)的,需要智能感知能力、運(yùn)動(dòng)控制能力、感控一體技術(shù)和AI算法等軟硬件能力的綜合配合。總之,硬件是機(jī)器人的軀體,軟件是機(jī)器人的靈魂,軟件與硬件的結(jié)合,靈魂與肉體的結(jié)合,才能構(gòu)成一個(gè)完整的、可用的智能機(jī)器人。特斯拉的機(jī)器人產(chǎn)品迭代過程以及大量的算法和軟件發(fā)布表明,軟件的生態(tài)進(jìn)步是推動(dòng)當(dāng)前機(jī)器人應(yīng)用場(chǎng)景實(shí)現(xiàn)的關(guān)鍵因素。
特斯拉人形機(jī)器人擁有強(qiáng)大的AI軟硬件完整備份,增加了后續(xù)開發(fā)的效率。除了對(duì)感知和控制算法的高要求外,人形機(jī)器人應(yīng)用訓(xùn)練需要密集的計(jì)算負(fù)荷、強(qiáng)大的硬件平臺(tái)以及合適的軟件開發(fā)工具和框架;同時(shí),迭代改進(jìn)的算法模型可以提升AI芯片的性能,幫助解決長(zhǎng)尾場(chǎng)景難題。軟件、硬件和AI算法的融合,更有利于進(jìn)一步激活生態(tài),促進(jìn)機(jī)器人未來場(chǎng)景的拓展。
算法框架和AI軟硬件加速訓(xùn)練的備份,TESLAOT將進(jìn)入快速迭代時(shí)代。強(qiáng)大的算法框架和AI軟硬件儲(chǔ)備才是機(jī)器人功能實(shí)現(xiàn)的真正核心。未來隨著FSD的逐漸成熟和DOJO的落地,其算法和數(shù)據(jù)的閉環(huán)將進(jìn)一步夯實(shí)。人形機(jī)器人在各種場(chǎng)景下的準(zhǔn)確度和靈敏度訓(xùn)練將更加容易,TESLABOT將進(jìn)入快速迭代時(shí)代。
我們認(rèn)為ChatGPT有望提升人形機(jī)器人的人機(jī)交互能力,加快算法迭代過程,提升機(jī)器人體驗(yàn)升級(jí)。ChatGPT的出現(xiàn)進(jìn)一步推進(jìn)了NLP技術(shù)前沿,使人機(jī)對(duì)話體驗(yàn)不斷優(yōu)化。如果接入機(jī)器人應(yīng)用,有望帶來更好的人形機(jī)器人交互體驗(yàn),加快人形機(jī)器人的落地過程。
二、AI 語音語義
NLP 技術(shù)正在不斷優(yōu)化被認(rèn)為是AI皇冠上的明珠。對(duì)話式AI和知識(shí)圖譜正在推動(dòng)行業(yè)發(fā)展。到2026年,國(guó)內(nèi)NLP驅(qū)動(dòng)的相關(guān)產(chǎn)業(yè)規(guī)模可破千億。我們認(rèn)為,ChatGPT算法的突破,進(jìn)一步提升了NLP技術(shù)的天花板,有望加速NLP技術(shù)在千行百業(yè)中的應(yīng)用。
NLP被譽(yù)為人工智能皇冠上的明珠,由于語義理解需要海量數(shù)據(jù)讓AI理解常識(shí)而壁壘較高。NLP或者說自然語義理解,技術(shù)上是指讓人工智能理解人類預(yù)測(cè)背后的含義。NLP衍生的應(yīng)用涵蓋方方面面,包括機(jī)器翻譯、AI應(yīng)答機(jī)器人等。從技術(shù)角度來看,如果要讓人工智能理解人類語言,最大的難點(diǎn)在于讓機(jī)器理解人類對(duì)話背后的海量常識(shí)設(shè)定。因此,NLP訓(xùn)練需要海量數(shù)據(jù),比訓(xùn)練其他AI技能難度更大,因此被稱為“人工智能皇冠上的明珠”。
對(duì)話式人工智能和知識(shí)圖譜正在推動(dòng)工業(yè)規(guī)模的增長(zhǎng)。到2026年,國(guó)內(nèi)NLP驅(qū)動(dòng)的相關(guān)產(chǎn)業(yè)規(guī)模可突破千億。與其他人工智能技術(shù)相比,NLP一般不作為獨(dú)立產(chǎn)品出售,而是作為一項(xiàng)基礎(chǔ)技術(shù),結(jié)合智能語音和知識(shí)圖譜等技術(shù),通常以對(duì)話式人工智能、機(jī)器翻譯、知識(shí)庫(kù)等形式出現(xiàn),產(chǎn)品不斷涌現(xiàn),在獨(dú)立生產(chǎn)模塊的情況下,開發(fā)速度較慢。近兩年,在對(duì)話機(jī)器人應(yīng)用的推動(dòng)下,智能知識(shí)庫(kù)、分模塊對(duì)話、對(duì)話語義理解、評(píng)論正負(fù)識(shí)別、對(duì)話自動(dòng)輸出等NLP產(chǎn)品迎來了發(fā)展機(jī)遇,并伴隨著通用或垂直行業(yè)知識(shí)的發(fā)展在圖譜構(gòu)建中,NLP 與知識(shí)圖譜的綁定關(guān)系將更加緊密。據(jù)艾瑞統(tǒng)計(jì)研究,到2021年,中國(guó)NLP核心產(chǎn)品規(guī)模將達(dá)到171億元,帶動(dòng)規(guī)模將達(dá)到450億元,到2026年,核心產(chǎn)品規(guī)模將達(dá)到459億元,驅(qū)動(dòng)規(guī)模將超過1000億元。
2019-2026 年中國(guó) NLP 核心產(chǎn)品及帶動(dòng)相關(guān)產(chǎn)業(yè)規(guī)模
我們認(rèn)為,作為NLP模型,ChatGPT算法的突破帶來了NLP技術(shù)的進(jìn)一步提升,有望加速NLP技術(shù)在智能語音、智能客服、機(jī)器人等各個(gè)行業(yè)和領(lǐng)域的應(yīng)用。
三、AI 視覺
AIGC方興未艾,圖像識(shí)別技術(shù)進(jìn)入落地階段,有望催化進(jìn)一步迭代。一方面AIGC技術(shù)方興未艾。這種基于AI的人工智能創(chuàng)作有望在未來徹底改變內(nèi)容生產(chǎn)方式,而NLP能力是其生產(chǎn)力的重要組成部分。ChatGPT有望加速其技術(shù)迭代。另一方面,AI圖像識(shí)別技術(shù)進(jìn)入廣泛應(yīng)用階段,以??低?/u>、大華為首的龍頭企業(yè)已將該技術(shù)應(yīng)用于G端安防、B端產(chǎn)業(yè)/文旅等領(lǐng)域,助力降低成本和提高效率。
1、圖像識(shí)別技術(shù)已經(jīng)相對(duì)成熟,進(jìn)入廣泛落地階段
人工智能圖像識(shí)別技術(shù)進(jìn)入廣闊應(yīng)用階段,以???、大華為首的人工智能視覺領(lǐng)軍企業(yè)已將技術(shù)應(yīng)用于安防、工業(yè)、文旅等領(lǐng)域。??怠⒋笕A等企業(yè)以愿景為切入點(diǎn),落地AI應(yīng)用,賦能千行百業(yè)降本增效?;谌四樧R(shí)別、溫度識(shí)別、動(dòng)態(tài)追蹤等技術(shù),???、大華等人工智能龍頭企業(yè)為制造、旅游、金融等行業(yè)提出了智能化解決方案,有效降本增效。
1)在制造業(yè),老板車間與海康威視合作,實(shí)現(xiàn)AR數(shù)字車間,助力智能生產(chǎn)。??低暲肁R視頻技術(shù)結(jié)合企業(yè)生產(chǎn)信息化,推出AR數(shù)字車間業(yè)務(wù),為老板電器無人工廠“九天中樞”智能制造平臺(tái)提供助力。AR數(shù)字車間可以在直觀的物理世界屏幕上為現(xiàn)場(chǎng)管理人員提供生產(chǎn)線和設(shè)備的實(shí)時(shí)數(shù)據(jù),并將大量視頻畫面、生產(chǎn)數(shù)據(jù)和設(shè)備數(shù)據(jù)組合成一個(gè)視圖,幫助企業(yè)更快地應(yīng)對(duì)突發(fā)事件;還可以將現(xiàn)場(chǎng)人員與管理人員或遠(yuǎn)程專家聯(lián)系起來,提供遠(yuǎn)程實(shí)時(shí)指導(dǎo);同時(shí),通過視頻圖像可以確定分配給高周轉(zhuǎn)量產(chǎn)品的線邊空間量,實(shí)時(shí)監(jiān)控裝卸、計(jì)劃數(shù)據(jù)、產(chǎn)出數(shù)據(jù),幫助公司優(yōu)化空間。
??低?AR 數(shù)字工廠示意圖
2)旅游景區(qū):AI機(jī)器視覺助力實(shí)現(xiàn)客流管理、智能運(yùn)維、火災(zāi)預(yù)警和環(huán)境動(dòng)植物監(jiān)測(cè)?;谥悄軝z測(cè)終端、智能網(wǎng)絡(luò)、物聯(lián)網(wǎng)技術(shù)和移動(dòng)應(yīng)用,人工智能機(jī)器視覺可實(shí)現(xiàn)景區(qū)地理、自然資源、基礎(chǔ)設(shè)施和景區(qū)管理的數(shù)字化和可視化;完善旅游景區(qū)車輛、人員、資產(chǎn)和事件的安全管理。同時(shí),通過智能分析和數(shù)據(jù)應(yīng)用,增強(qiáng)景區(qū)安全,優(yōu)化景區(qū)管理,豐富游客服務(wù),助力景區(qū)環(huán)境和經(jīng)濟(jì)可持續(xù)發(fā)展。目前,大華股份的旅游景區(qū)解決方案已應(yīng)用于四川大邑縣、福建清源山景區(qū)等地的全域旅游項(xiàng)目。
大華股份智慧景區(qū)項(xiàng)目展示
2、AIGC技術(shù)方興未艾,基于NLP技術(shù)未來有望創(chuàng)新內(nèi)容創(chuàng)作方式
AIGC是一種利用AI技術(shù)自動(dòng)生成內(nèi)容的生產(chǎn)方式,包括文本、圖片、視頻等多種形式的內(nèi)容。AIGC 是基于人工智能的內(nèi)容生產(chǎn),一般來說,使用形式是將需要生成的內(nèi)容通過句子以一定的格式描述出來,然后讓AI系統(tǒng)自動(dòng)生成文字/圖片/視頻等。目前,國(guó)內(nèi)外已有多家廠商在AIGC領(lǐng)域布局,比如國(guó)內(nèi)的 AI 小說續(xù)寫軟件彩云小夢(mèng)、OpenAI 推出的 AI 繪畫 模型 Dall-E、知名 AI 繪畫網(wǎng)站 midjourney 等。
AIGC 應(yīng)用領(lǐng)域一覽
NLP 能力決定了 AIGC 應(yīng)用對(duì)用戶意圖的理解力,是生產(chǎn)力的重要組成部分,ChatGPT 的到來有望加速其技術(shù)迭代。由于目前 AIGC 的生產(chǎn)模式,是通過語言文字的方式輸入 用戶需求,所以,如何理解用戶所描述的內(nèi)容,就成為決定成品效果的重要因素。而 NLP 技術(shù),正是理解用戶意圖的關(guān)鍵所在。ChatGPT 作為當(dāng)前效果最好的對(duì)話式 NLP 模型之 一,它的出現(xiàn)有望提升 AI 理解人類意圖的水平,從而加速 AIGC 技術(shù)的迭代。
Chat GPT 的底層架構(gòu)
作為一種人工智能模型,ChatGPT 的訓(xùn)練和推理需要大量的計(jì)算資源。與 CPU 相比,GPU 具有更高的并行性和處理能力,因此常常被用來加速深度學(xué)習(xí)任務(wù)的運(yùn)算。因此,ChatGPT 的訓(xùn)練和推理通常會(huì)利用 GPU 來加速計(jì)算。
在訓(xùn)練過程中,ChatGPT 的架構(gòu)可以采用分布式訓(xùn)練的方式,使用多個(gè) GPU 并行計(jì)算,以加速訓(xùn)練過程。在推理階段,ChatGPT 可以使用 GPU 進(jìn)行加速,以實(shí)現(xiàn)更快的響應(yīng)時(shí)間和更高的吞吐量。
對(duì)于 GPU 的選擇,一般來說,需要考慮 GPU 的計(jì)算能力、內(nèi)存大小、功耗、價(jià)格等因素。同時(shí),也需要考慮 GPU 的架構(gòu)是否與 ChatGPT 的計(jì)算需求相匹配,以獲得最佳的性能和效率。例如,NVIDIA 的 Volta、Turing 和 Ampere 架構(gòu)都被廣泛應(yīng)用于深度學(xué)習(xí)領(lǐng)域,包括 ChatGPT 的訓(xùn)練和推理。
GPU的核心競(jìng)爭(zhēng)力在于架構(gòu)等因素決定的性能先進(jìn)性和計(jì)算生態(tài)壁壘。國(guó)內(nèi)GPU廠商紛紛大力投入研發(fā)快速迭代架構(gòu),推動(dòng)產(chǎn)業(yè)開放構(gòu)建自主生態(tài),加速追趕全球頭部企業(yè)。國(guó)產(chǎn)替代需求持續(xù)釋放疊加國(guó)際局勢(shì)不確定性加劇, AI、數(shù)據(jù)中心、智能汽車、游戲等GPU需求有望高增,國(guó)產(chǎn)GPU迎來發(fā)展黃金期,我們看好國(guó)產(chǎn)GPU公司的發(fā)展與投資機(jī)遇。
一、如何理解GPU的架構(gòu)
為了充分理解GPU的架構(gòu),讓我們?cè)俜祷貋砜聪碌谝粡垐D,一個(gè)顯卡中絕大多數(shù)都是計(jì)算核心core組成的海洋。在圖像縮放的例子中,core與core之間不需要任何協(xié)作,因?yàn)樗麄兊娜蝿?wù)是完全獨(dú)立的,然而,GPU解決的問題不一定這么簡(jiǎn)單,讓我們來舉個(gè)例子。
假設(shè)我們需要對(duì)一個(gè)數(shù)組里的數(shù)進(jìn)行求和,這樣的運(yùn)算屬于reductuin family類型,因?yàn)檫@樣的運(yùn)算試圖將一個(gè)序列“reduce”簡(jiǎn)化為一個(gè)數(shù)。計(jì)算數(shù)組的元素總和的操作看起來是順序的,我們只需要獲取第一個(gè)元素,求和到第二個(gè)元素中,獲取結(jié)果,再將結(jié)果求和到第三個(gè)元素,以此類推。
令人驚訝的是,一些看起來本質(zhì)是順序的運(yùn)算,其實(shí)可以再并行算法中轉(zhuǎn)化。假設(shè)一個(gè)長(zhǎng)度為8的數(shù)組,在第一步中完全可以并行執(zhí)行兩個(gè)元素和兩個(gè)元素的求和,從而同時(shí)獲得四個(gè)元素,兩兩相加的結(jié)果,以此類推,通過并行的方式加速數(shù)組求和的運(yùn)算速度。具體的操作如下圖所示,
如上圖計(jì)算方式,如果是長(zhǎng)度為8的數(shù)組兩兩并行求和計(jì)算,那么只需要三次就可以計(jì)算出結(jié)果。如果是順序計(jì)算需要8次。如果按照兩兩并行相加的算法,N個(gè)數(shù)字相加,那么僅需要log2(N)次就可以完成計(jì)算。
從GPU的角度來講,只需要四個(gè)core就可以完成長(zhǎng)度為8的數(shù)組求和算法,我們將四個(gè)core編號(hào)為0,1,2,3。
那么第一個(gè)時(shí)鐘下,兩兩相加的結(jié)果通過0號(hào)core計(jì)算,放入了0號(hào)core可以訪問到的內(nèi)存中,另外兩兩對(duì)分別由1號(hào)2號(hào)3號(hào)core來計(jì)算,第二個(gè)個(gè)時(shí)鐘繼續(xù)按照之前的算法計(jì)算,只需要0號(hào)和1號(hào)兩個(gè)core即可完成,以此類推,最終的結(jié)果將在第三個(gè)時(shí)鐘由0號(hào)core計(jì)算完成,并儲(chǔ)存在0號(hào)core可以訪問到的內(nèi)存中。這樣實(shí)際三次就能完成長(zhǎng)度為8的數(shù)組求和計(jì)算。
如果GPU想要完成上述的推理計(jì)算過程,顯然,多個(gè)core之間要可以共享一段內(nèi)存空間以此來完成數(shù)據(jù)之間的交互,需要多個(gè)core可以在共享的內(nèi)存空間中完成讀/寫的操作。我們希望每個(gè)Cores都有交互數(shù)據(jù)的能力,但是不幸的是,一個(gè)GPU里面可以包含數(shù)以千計(jì)的core,如果使得這些core都可以訪問共享的內(nèi)存段是非常困難和昂貴的。出于成本的考慮,折中的解決方案是將各類GPU的core分類為多個(gè)組,形成多個(gè)流處理器(Streaming Multiprocessors )或者簡(jiǎn)稱為SMs。
二、最終的GPU架構(gòu)
The Turing architecture
上圖的綠色部分意味著Core計(jì)算單元,綠色的塊就是上文談到的Streaming Multiprocessors,理解為Core的集合。黃色的部分名為RT COREs畫的離SMs非常近。單個(gè)SM的圖靈架構(gòu)如下圖所示
The Turing SM
在SM的圖靈結(jié)構(gòu)中,綠色的部分CORE相關(guān)的,我們進(jìn)一步區(qū)分了不同類型的CORE。主要分為INT32,FP32,TENSOR CORES。FP32 Cores,執(zhí)行單進(jìn)度浮點(diǎn)運(yùn)算,在TU102卡中,每個(gè)SM由64個(gè)FP32核,TU120由72個(gè)SMs因此,F(xiàn)P32 Core的數(shù)量是 72 * 64。
FP64 Cores. 實(shí)際上每個(gè)SM都包含了2個(gè)64位浮點(diǎn)計(jì)算核心FP64 Cores,用來計(jì)算雙精度浮點(diǎn)運(yùn)算,雖然上圖沒有畫出,但是實(shí)際是存在的。Integer Cores,這些core執(zhí)行一些對(duì)整數(shù)的操作,例如地址計(jì)算,可以和浮點(diǎn)運(yùn)算同時(shí)執(zhí)行指令。在前幾代GPU中,執(zhí)行這些整型操作指令都會(huì)使得浮點(diǎn)運(yùn)算的管道停止工作。TU102總共有4608個(gè)Integer Cores,每個(gè)SM有64個(gè)SM。
Tensor Cores,張量core是FP16單元的變種,認(rèn)為是半精度單元,致力于張量積算加速常見的深度學(xué)習(xí)操作。圖靈張量Core還可以執(zhí)行INT8和INT4精度的操作,用于可以接受量化而且不需要FP16精度的應(yīng)用場(chǎng)景,在TU102中,我們每個(gè)SM有8個(gè)張量Cores,一共有8 * 72個(gè)Tensor Cores。
在大致描述了GPU的執(zhí)行部分之后,讓我們回到上文提出的問題,各個(gè)核心之間如何完成彼此的協(xié)作?
在四個(gè)SM塊的底部有一個(gè)96KB的L1 Cache,用淺藍(lán)色標(biāo)注的。這個(gè)cache段是允許各個(gè)Core都可以訪問的段,在L1 Cache中每個(gè)SM都有一塊專用的共享內(nèi)存。作為芯片上的L1 cache的大小是有限的,但它非??欤隙ū仍L問GMEM快得多。
實(shí)際上L1 CACHE擁有兩個(gè)功能,一個(gè)是用于SM上Core之間相互共享內(nèi)存,另一個(gè)則是普通的cache功能。當(dāng)Core需要協(xié)同工作,并且彼此交換結(jié)果的時(shí)候,編譯器編譯后的指令會(huì)將部分結(jié)果儲(chǔ)存在共享內(nèi)存中,以便于不同的core獲取到對(duì)應(yīng)數(shù)據(jù)。當(dāng)用作普通cache功能的時(shí)候,當(dāng)core需要訪問GMEM數(shù)據(jù)的時(shí)候,首先會(huì)在L1中查找,如果沒找到,則回去L2 cache中尋找,如果L2 cache也沒有,則會(huì)從GMEM中獲取數(shù)據(jù),L1訪問最快 L2 以及GMEM遞減。緩存中的數(shù)據(jù)將會(huì)持續(xù)存在,除非出現(xiàn)新的數(shù)據(jù)做替換。從這個(gè)角度來看,如果Core需要從GMEM中多次訪問數(shù)據(jù),那么編程者應(yīng)該將這塊數(shù)據(jù)放入功能內(nèi)存中,以加快他們的獲取速度。其實(shí)可以將共享內(nèi)存理解為一段受控制的cache,事實(shí)上L1 cache和共享內(nèi)存是同一塊電路中實(shí)現(xiàn)的。編程者有權(quán)決定L1 的內(nèi)存多少是用作cache多少是用作共享內(nèi)存。
最后,也是比較重要的是,可以儲(chǔ)存各個(gè)core的計(jì)算中間結(jié)果,用于各個(gè)核心之間共享的內(nèi)存段不僅僅可以是共享內(nèi)存L1,也可以是寄存器,寄存器是離core最近的內(nèi)存段,但是也非常小。最底層的思想是每個(gè)線程都可以擁有一個(gè)寄存器來儲(chǔ)存中間結(jié)果,每個(gè)寄存器只能由相同的一個(gè)線程來訪問,或者由相同的warp或者組的線程訪問。
三、海外復(fù)盤:NVIDIA與AMD(ATI)的競(jìng)爭(zhēng)貫穿GPU發(fā)展歷程,架構(gòu)創(chuàng)新升級(jí)和新興AI等領(lǐng)域前瞻探索是領(lǐng)跑的關(guān)鍵
1、NVIDIA長(zhǎng)期居于GPU市場(chǎng)領(lǐng)導(dǎo)地位,近年AMD憑借RDNA架構(gòu)在游戲市場(chǎng)強(qiáng)勢(shì)崛起。Verified Market Research數(shù)據(jù)顯示,2022年全球獨(dú)立GPU市場(chǎng)規(guī)模約448.3億美元,NVIDIA和AMD的市場(chǎng)份額占比約為8:2。根據(jù)JPR數(shù)據(jù),NVIDIA憑借自身性能領(lǐng)先和CUDA生態(tài)優(yōu)勢(shì)性 始終占有GPU領(lǐng)域超50%的市場(chǎng)份額,數(shù)據(jù)中心業(yè)務(wù)更是全面領(lǐng)先,在游戲顯卡領(lǐng)域,近年AMD憑借RDNA系列架構(gòu)強(qiáng)勢(shì)崛起。
2、NVIDIA先后與AMD等企業(yè)在性能方面競(jìng)爭(zhēng)博弈,架構(gòu)創(chuàng)新升級(jí)和新興領(lǐng)域前瞻探索是領(lǐng)跑GPU行業(yè)的關(guān)鍵。NVIDIA憑借性能領(lǐng)先長(zhǎng)期占據(jù)超五成市場(chǎng)份額,AMD(ATI)也曾因架構(gòu)出色、性能驚艷實(shí)現(xiàn)反超。同時(shí)NVIDIA早在2006年前瞻性布局通用計(jì)算、構(gòu)建CUDA生態(tài),為如今AI&數(shù)據(jù)中心領(lǐng)域的全面領(lǐng)先構(gòu)筑牢固的壁壘。NVIDIA積極布局異構(gòu)芯片、汽車、元宇宙等新市場(chǎng),尋找新的強(qiáng)有力業(yè)務(wù)增長(zhǎng)點(diǎn)。
四、國(guó)內(nèi)GPU市場(chǎng):各應(yīng)用場(chǎng)景市場(chǎng)廣闊,國(guó)內(nèi)廠商大有可為
1、GPU市場(chǎng)空間廣闊,國(guó)內(nèi)企業(yè)規(guī)模逐步起量
2022年全球GPU市場(chǎng)規(guī)模達(dá)到448.3億美元,國(guó)內(nèi)外市場(chǎng)空間正高速增長(zhǎng),年復(fù)合增長(zhǎng)率達(dá)到32.8% ,Verified Market Research 數(shù)據(jù)顯示,2020年,全球GPU市場(chǎng)規(guī)模為254.1億美元,且該機(jī)構(gòu)預(yù)計(jì)2028年市場(chǎng)規(guī)模將達(dá)到2465.1億美元, 對(duì)應(yīng)年復(fù)合增長(zhǎng)率達(dá)32.8%。
國(guó)際獨(dú)立GPU市場(chǎng)由Nvidia、AMD八二分成,國(guó)內(nèi)市場(chǎng)中國(guó)企業(yè)體量快速增長(zhǎng)國(guó)際市場(chǎng)上,英偉達(dá)、AMD瓜分市場(chǎng),Jon Peddie Research數(shù)據(jù)顯示2022Q1英偉達(dá)占據(jù)79%市場(chǎng)份額,AMD占據(jù)21%。英偉達(dá)在獨(dú)立GPU領(lǐng)域一枝獨(dú)秀,AMD在集成GPU領(lǐng)域可與英偉達(dá)競(jìng)爭(zhēng)。根據(jù)各公司財(cái)報(bào),國(guó)內(nèi)GPU龍頭企業(yè)景嘉微2022年上半年?duì)I業(yè)收入5.44億人民幣,2021年?duì)I業(yè)收入10.93億人民幣;2022年上半年海光信息營(yíng)業(yè)收入為25.3億元,而英偉達(dá)2022Q2營(yíng)收為67億美元,2021年NVIDIA中國(guó)區(qū)的營(yíng)收約為71億美元。相比之下,國(guó)產(chǎn)廠商相對(duì)規(guī)模暫時(shí)較小,未來成長(zhǎng)空間廣闊。
2、國(guó)內(nèi)市場(chǎng):GPU應(yīng)用市場(chǎng)可劃分為—AI和數(shù)據(jù)中心、智能汽車、游戲
1)需求端1—AI
ChatGPT等AI大模型加速對(duì)大算力的需求
2022年11月人工智能實(shí)驗(yàn)室 OpenAI 推出了一款A(yù)I對(duì)話系統(tǒng)—ChatGPT,ChatGPT模型從 GPT-3.5 系列中的一個(gè)模型微調(diào)而成,并在 Azure AI 超級(jí)計(jì)算基礎(chǔ)設(shè)施上進(jìn)行訓(xùn)練,能夠進(jìn)行有邏輯的對(duì)話、撰寫代碼、撰寫劇本、糾正錯(cuò)誤、拒絕不正當(dāng)?shù)恼?qǐng)求等,效果超越大眾預(yù)期。這標(biāo)志著對(duì)話類人工智能可以在大范圍、細(xì)節(jié)問題上給出較合理準(zhǔn)確的答案,并根據(jù)上下文形成一定像人類一樣有邏輯且有創(chuàng) 造力的回答。ChatGPT的優(yōu)化主要來自模型的增大,以及因此帶來的算力增加。GPT、GPT-2和GPT-3(當(dāng)前開放的版本為GPT-3.5)的參數(shù)量從1.17 億增加到1750億,預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB,其中GPT-3訓(xùn)練單次的成本就高達(dá)460萬美元。
大模型算力
數(shù)據(jù)中心和終端場(chǎng)景不斷落地對(duì)計(jì)算芯片提出更多更高需求
依據(jù)部署位置劃分,AI芯片可以細(xì)分為終端芯片和云端芯片,云端芯片市場(chǎng)空間約為終端芯片的2-3倍。云端芯片:云端芯片應(yīng)用于云端服務(wù)器,可以進(jìn)一步細(xì)分為推理芯片和訓(xùn)練芯片。根據(jù)甲子光年數(shù)據(jù),2018年中國(guó)云端芯片市場(chǎng)約46.1 億元,該機(jī)構(gòu)預(yù)計(jì)2023年增長(zhǎng)至384.6億元。終端芯片:應(yīng)用于嵌入式、移動(dòng)終端、智能制造、智能家居等領(lǐng)域的AI芯片,終端芯片需要低功耗和更高的能效比,但是對(duì)算力的需求也相對(duì)較低,主要應(yīng)用于AI推理。根據(jù)甲子光年數(shù)據(jù),2018年中國(guó)終端芯片市場(chǎng)約15億元,該機(jī)構(gòu)預(yù)計(jì)2023年增長(zhǎng)至173億元。
AI芯片總市場(chǎng)232億元,其中云端芯片市場(chǎng)空間更大,預(yù)計(jì)終端芯片將隨著AI在多行業(yè)落地將進(jìn)一步放量。甲子光年預(yù)測(cè),中國(guó)AI芯片市場(chǎng)規(guī)模將從2021年232億元增長(zhǎng)至2023年的500億元左右,對(duì)應(yīng)中國(guó)云端芯片市場(chǎng)的復(fù)合增長(zhǎng)率為52.8%;終端芯片市場(chǎng)規(guī)模相對(duì)較小,但由于人工智能在汽車、安防、智能家居等行業(yè)滲透,屆時(shí)市場(chǎng)規(guī)模增長(zhǎng)率達(dá)到62.2%。
中國(guó)終端AI芯片市場(chǎng)規(guī)模(億元)
2)需求端2—汽車:汽車智能化浪潮下控制器GPU市場(chǎng)前景廣闊。自動(dòng)駕駛和智能座艙是智能汽車中具有廣闊前景的方向。蓋世汽車數(shù)據(jù)預(yù)計(jì),2025年自動(dòng)駕駛域控制器出貨量將達(dá)到432萬臺(tái),每臺(tái)自動(dòng)駕駛域控制器配備1-4片高性能計(jì)算GPU;智能座艙域控制器出貨量達(dá)到528萬臺(tái),絕大多數(shù)智能座艙域控制器配備1片GPU。自動(dòng)駕駛技術(shù)進(jìn)一步智能化拉動(dòng)汽車GPU市場(chǎng)規(guī)模快速擴(kuò)張。
3)需求端3—游戲:游戲玩家人數(shù)持續(xù)增長(zhǎng),游戲GPU市場(chǎng)穩(wěn)中有升。Newzoo Expert數(shù)據(jù)顯示全球游戲玩家人數(shù)在2021年已達(dá)到30.57億人,且預(yù)計(jì)2020-2025年全球游戲玩家人數(shù)復(fù)合年增率為4.2%;游戲市場(chǎng)內(nèi),游戲機(jī)和PC兩大主體出貨量再創(chuàng)新高,游戲機(jī)三大巨頭2021年出貨量高達(dá)4008萬臺(tái);2021年Q4全球PC GPU出貨量(包括集成和獨(dú)立顯卡)高達(dá)11000萬片。
3、國(guó)內(nèi)GPU發(fā)展現(xiàn)狀
1)GPU市場(chǎng)規(guī)模逐年增長(zhǎng):據(jù)市場(chǎng)研究公司IDC數(shù)據(jù)顯示,2020年中國(guó)GPU市場(chǎng)規(guī)模為92.9億美元,同比增長(zhǎng)15.5%。其中游戲、數(shù)據(jù)中心、人工智能等領(lǐng)域是GPU市場(chǎng)的主要需求方。
2)國(guó)內(nèi)GPU廠商崛起:中國(guó)有多家GPU廠商在市場(chǎng)中嶄露頭角,例如華為、寒武紀(jì)、顯現(xiàn)科技、紫光展銳等。這些公司在GPU技術(shù)研發(fā)、產(chǎn)品創(chuàng)新、市場(chǎng)拓展等方面取得了不少成果,并開始在一些領(lǐng)域嶄露頭角。
3)國(guó)內(nèi)GPU技術(shù)水平提升:中國(guó)在GPU技術(shù)研發(fā)領(lǐng)域也取得了一些成果,例如國(guó)產(chǎn)化的GPU服務(wù)器、AI加速卡、圖像處理器等,這些技術(shù)的出現(xiàn)使得國(guó)內(nèi)GPU應(yīng)用的范圍進(jìn)一步擴(kuò)大。
4)GPU在科研領(lǐng)域的應(yīng)用逐步增多:GPU在科研領(lǐng)域的應(yīng)用逐步增多,例如天河系列超級(jí)計(jì)算機(jī)、中國(guó)科學(xué)院的高性能計(jì)算平臺(tái)等。GPU的應(yīng)用不僅加速了科研進(jìn)程,也為國(guó)家科技創(chuàng)新提供了支撐。
總結(jié)
數(shù)字中國(guó)建設(shè)是中國(guó)國(guó)家發(fā)展戰(zhàn)略的一部分,旨在推動(dòng)數(shù)字化、信息化和網(wǎng)絡(luò)化的全面發(fā)展,提高數(shù)字經(jīng)濟(jì)的貢獻(xiàn)率,構(gòu)建數(shù)字社會(huì)和數(shù)字政府,加強(qiáng)國(guó)家信息安全和網(wǎng)絡(luò)安全等。數(shù)字中國(guó)建設(shè)的整體布局規(guī)劃應(yīng)該包括以下幾個(gè)方面:
1、建設(shè)數(shù)字基礎(chǔ)設(shè)施:包括建設(shè)高速寬帶網(wǎng)絡(luò)、移動(dòng)通信網(wǎng)絡(luò)、物聯(lián)網(wǎng)等數(shù)字基礎(chǔ)設(shè)施,提高網(wǎng)絡(luò)帶寬和速度,實(shí)現(xiàn)全國(guó)覆蓋。
2、推進(jìn)數(shù)字產(chǎn)業(yè)發(fā)展:包括培育數(shù)字經(jīng)濟(jì)新業(yè)態(tài),加強(qiáng)數(shù)字產(chǎn)業(yè)集聚區(qū)建設(shè),促進(jìn)數(shù)字化轉(zhuǎn)型,提高數(shù)字產(chǎn)業(yè)的國(guó)際競(jìng)爭(zhēng)力。
3、構(gòu)建數(shù)字社會(huì):加強(qiáng)數(shù)字技術(shù)與社會(huì)發(fā)展的融合,建立數(shù)字健康、數(shù)字教育、數(shù)字文化等數(shù)字社會(huì)基礎(chǔ)設(shè)施,提高人民群眾的數(shù)字素養(yǎng)和數(shù)字生活質(zhì)量。
4、推進(jìn)數(shù)字政府建設(shè):通過建設(shè)數(shù)字政府平臺(tái)、數(shù)字化行政審批、電子政務(wù)等手段,提高政府工作效率和公共服務(wù)水平,推進(jìn)政府治理現(xiàn)代化。
5、加強(qiáng)信息安全和網(wǎng)絡(luò)安全:建設(shè)信息安全和網(wǎng)絡(luò)安全的法律制度體系,強(qiáng)化網(wǎng)絡(luò)空間安全管理,提高信息安全和網(wǎng)絡(luò)安全能力。
通過數(shù)字中國(guó)建設(shè)的整體布局規(guī)劃,可以實(shí)現(xiàn)數(shù)字化、信息化和網(wǎng)絡(luò)化的全面發(fā)展,加速數(shù)字經(jīng)濟(jì)的發(fā)展,提高社會(huì)生產(chǎn)力和國(guó)家綜合實(shí)力。此外,ChatGPT可以通過學(xué)習(xí)數(shù)字中國(guó)建設(shè)的整體布局規(guī)劃,深入了解數(shù)字技術(shù)在國(guó)家戰(zhàn)略和社會(huì)發(fā)展中的應(yīng)用,從而提高對(duì)數(shù)字經(jīng)濟(jì)、數(shù)字社會(huì)、數(shù)字政府等領(lǐng)域的理解和認(rèn)知,為未來發(fā)展提供更加全面和深入的思路和支持。
審核編輯黃宇
-
amd
+關(guān)注
關(guān)注
25文章
5470瀏覽量
134239 -
人工智能
+關(guān)注
關(guān)注
1791文章
47352瀏覽量
238774 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5504瀏覽量
121229 -
npl
+關(guān)注
關(guān)注
0文章
5瀏覽量
2370 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1563瀏覽量
7767
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論