導(dǎo)讀
2018 全球人工智能與機(jī)器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機(jī)學(xué)會(CCF)主辦,由雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,得到了深圳市寶安區(qū)政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會,旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺。
7 月 1 日,隨著議程進(jìn)入到第三天,本次 CCF-GAIR 大會也在下午迎來了堪稱壓軸的 AI 芯片專場。擔(dān)任 AI 芯片專場主席的,是中國電子學(xué)會電子設(shè)計自動化專家委員會主任委員、清華大學(xué)微電子研究所所長魏少軍教授;在擔(dān)任主席之外,魏教授還為 AI 芯片專場帶來了一場干貨滿滿的大會報告《從 IA 到 AI,我們還要走多遠(yuǎn)?》
在報告中,魏教授引用人工智能專家 Michael I. Jordan 的觀點(diǎn)認(rèn)為,我們今天所做的還不能算是真正的 AI(Artificial Intelligence),只是利用技術(shù)來增強(qiáng)某一方面的智能而已,也就是所謂的增強(qiáng)智能(Intelligence Augmentation,簡稱 IA)。究其原因,是因?yàn)楫?dāng)前的人工智能算法遠(yuǎn)遠(yuǎn)沒有達(dá)到人們的要求,具體來說,現(xiàn)有的算法過于單一,無法實(shí)現(xiàn)類似于人腦的高度復(fù)雜又高度靈活的互聯(lián)結(jié)構(gòu)系統(tǒng)。
魏教授指出,我們目前要實(shí)現(xiàn)人工智能,別無選擇,只能靠芯片;但是現(xiàn)有 CPU、GPU、FPGA 等芯片的基本架構(gòu)早在這次人工智能突破之前就已經(jīng)存在了,并不是為人工智能而專門設(shè)計的,因此不能完美地承擔(dān)實(shí)現(xiàn)人工智能的任務(wù)。人工智能對芯片的要求,除了足夠的算力和極高的能效比,還需要一個高能效、通用的計算引擎。由此,魏教授認(rèn)為 AI 芯片至少應(yīng)有以下幾個特質(zhì):
第一,它的可編程性,要適應(yīng)算法的演進(jìn)和應(yīng)對多樣性;因?yàn)樗惴ú环€(wěn)定,它在不斷變化;
第二,架構(gòu)動態(tài)可變性,要適應(yīng)不同算法;
第三,高效的架構(gòu)變換能力,因?yàn)椴煌倪\(yùn)算要求變換不同的架構(gòu)。
隨后,魏教授從硬件可編程和軟件可編程的角度,將芯片的性質(zhì)分為四個種類,并認(rèn)為目前少有人關(guān)注的軟件定義芯片(SDC)在 AI 領(lǐng)域最有潛力;它一方面具備 CPU 的靈活性,另一方面是專用集成電路的高能量效率和高集成度。它的軟件和硬件均可編程,混合顆粒度,最重要的是芯片功能隨軟件變化而變化;在使用中也不需要芯片設(shè)計知識。
魏教授表示,芯片要實(shí)現(xiàn)智能化,不能光有硬件,一定要有要求很高的軟件——自主學(xué)習(xí)的能力、形成知識和經(jīng)驗(yàn)的能力、持續(xù)改進(jìn)和優(yōu)化的能力、再生和組織能力、思維邏輯推理能力、作出正確判斷和決策能力,這是軟件才能完成的,而非硬件。
基于這個理念,魏教授提到了他所認(rèn)為的真正軟件定義芯片。也就是:
一個真正理想的計算應(yīng)該是軟件和硬件的架構(gòu)一模一樣,軟件是什么樣的拓?fù)浣Y(jié)構(gòu),硬件就應(yīng)該是怎樣的拓?fù)浣Y(jié)構(gòu);軟件需要什么樣的運(yùn)算,硬件需要存在這樣的運(yùn)算資源??上У氖?,軟件可以很大,硬件不能大;我們只好把軟件分塊,跟硬件大小一樣。比如把它分為 6 塊,根據(jù)數(shù)據(jù)依賴關(guān)系把第二塊、第三塊、第四塊放進(jìn)去……一直到第六塊。這要求我們硬件必須隨時改變其功能,硬件功能和架構(gòu)能夠動態(tài)地按照軟件實(shí)時進(jìn)行改變,這是我們所說的軟件定義芯片。
魏教授表示,上述概念雖然聽起來簡單,但實(shí)現(xiàn)起來是一個非常艱難的過程,而他自己的實(shí)驗(yàn)室也是經(jīng)歷了 12 年的努力終于得到實(shí)現(xiàn)(該研究成果由清華大學(xué) Thinker 團(tuán)隊(duì)已經(jīng)在相關(guān)國際會議上發(fā)布,可查看雷鋒網(wǎng)相關(guān)報道)。通過這一全新架構(gòu),可以用來實(shí)現(xiàn)可重構(gòu)神經(jīng)網(wǎng)絡(luò);也就是說,通過 AI 應(yīng)用定義我們所選用的深度神經(jīng)網(wǎng)絡(luò),改變芯片架構(gòu)和功能——魏教授表示,如果能做到,那么這種芯片將成為真正的通用人工智能芯片。
最后,針對近段時間以來中美芯片領(lǐng)域的”嚇尿體“和”被嚇尿“之類的聲音,魏教授認(rèn)為我們應(yīng)當(dāng)在承認(rèn)與美國半導(dǎo)體行業(yè)差距的同時,也要看到我國在軟件定義芯片領(lǐng)域的領(lǐng)先地位;而 AI 芯片的創(chuàng)新也只有通過真正的架構(gòu)創(chuàng)新才能到達(dá)頂峰。
在大會報告結(jié)束之后,魏教授接受了雷鋒網(wǎng)的獨(dú)家專訪。
此前,魏教授曾經(jīng)提出過這樣一個觀點(diǎn):AI 芯片的發(fā)展很可能會在未來 2-3 年遭遇一個挫折期;今天的部分、甚至大部分創(chuàng)業(yè)者將成為這場技術(shù)變革中的“先烈”。對于這個觀點(diǎn)的得出,魏教授表示有兩個原因:
一是因?yàn)楫a(chǎn)業(yè)發(fā)展的特定規(guī)律,比如說 Gartner 的發(fā)布 Hype Cycle(技術(shù)成熟度曲線),目前的 AI 芯片正處于第一個峰值的頂點(diǎn)處,未來兩三年將會出現(xiàn)下降,很多事情的發(fā)展都是在經(jīng)歷了熱度之后進(jìn)入到下降期,最后才會進(jìn)入到應(yīng)用穩(wěn)定期。
第二,雖然 AI 很熱,但是并沒有真正落地。實(shí)際上,并不是所有的技術(shù)都一定需要 AI,很多情況下 AI 起到的是增強(qiáng)的作用;當(dāng)前人們擁抱 AI,但未來可能會失望。所以說,AI 要需要的,是真正的 Killer Application(殺手級應(yīng)用),每天都離不開的。
至于這里所說的 AI 的殺手級應(yīng)用,魏教授也給了一些案例,比如說自動駕駛,遠(yuǎn)程醫(yī)療等。另外,針對 AI 芯片在去年下半年以來的火熱狀況,魏教授認(rèn)為這是資本助推的結(jié)果,一旦錢燒完,就很有可能出現(xiàn)問題;而且在資本的逐利本性下,也是難以為繼的。
而針對魏教授在報告中提到的 Thinker 團(tuán)隊(duì)的相關(guān)成果,魏教授表示,目前團(tuán)隊(duì)正處于融資階段,估值也很高;而且一旦進(jìn)入到產(chǎn)業(yè)界,它所能獲得的性能、能量效率、成本一定遠(yuǎn)遠(yuǎn)好于高校的結(jié)果。
魏教授強(qiáng)調(diào),Thinker 的通用性雖然很強(qiáng),但它并非是為了取代 CPU、GPU、FPGA 而來,未來這些不同類型的芯片依然會是長期共存的局面。就目前的情況來看,Thinker 在產(chǎn)業(yè)方向的具體應(yīng)用場景要取決于工業(yè)界的具體狀況,不過魏教授認(rèn)為 Thinker 更傾向于端側(cè)應(yīng)用,因?yàn)橹挥卸藗?cè)的突破才是 AI 芯片的真正突破。
談到整個 AI 芯片行業(yè)未來的發(fā)展,魏教授認(rèn)為,正如 Intel 的 CPU、英偉達(dá)的 GPU 在各自領(lǐng)域占據(jù)統(tǒng)治地位一樣,在 AI 芯片領(lǐng)域同樣會在未來出現(xiàn)一個稱霸世界的企業(yè)——這個企業(yè)有希望出現(xiàn)在中國,而 Thinker 獨(dú)樹一幟,也擁有別人所不具備的優(yōu)點(diǎn),因此未必就沒有機(jī)會。
最后,在中興事件引起的輿論塵埃尚未完全落定的大背景下,作為中國半導(dǎo)體行業(yè)的領(lǐng)軍人物,魏教授也通過雷鋒網(wǎng)給出了一個來自中國半導(dǎo)體行業(yè)的聲音:
首先,中興事件還是一個獨(dú)立事件。它反映了中國企業(yè)在走向國際市場當(dāng)中要必然經(jīng)歷一個”必修課“。即使這件事不發(fā)生在中興身上,也會在未來某些時候發(fā)生在其他企業(yè)身上,總之是早晚會發(fā)生的,它也讓我們的企業(yè)意識到走向國際市場的過程中要遵守的規(guī)則。當(dāng)然,中興這次的代價的確是大了點(diǎn)。
從外界來看,有些社會輿論一方面把中興罵得狗血臨頭,另一方面又認(rèn)為自己一無是處,對此我是非常不贊成的。這次中興事件之后,有些人妄自菲薄地說自己什么都不行,也有很多”你看過這個才知道中國的芯片有多爛“這樣的聳人聽聞的話題——這些人也陷入到另外一個極端。
那么,中國的芯片到底怎么樣呢?
我們認(rèn)為,跟別人比有差距,但也沒有差到那種程度。其實(shí)別人有的我們都有,只是比別人差一點(diǎn),比如說性能低一點(diǎn)、可靠性差一點(diǎn),還在慢慢的發(fā)展過程中,存在一些問題。再過五年八年十年的時候,很有可能中國的芯片就跟國際水平差不多了。
所以,我們第一不要自己吹牛,第二也不要妄自菲??;踏踏實(shí)實(shí)發(fā)展,同時也要有信心。美國之所以那么擔(dān)心,本質(zhì)上還是因?yàn)榧蓱勚袊谙嚓P(guān)方面的發(fā)展,否則根本不會予以理會。中國人要有自己的定力,中國的半導(dǎo)體產(chǎn)業(yè)既不像有人說的那么好,也不像有人說的那么差——它還處于發(fā)展過程中,我還是充滿信心的。
以下是魏少軍教授在 CCF-GAIR 2018 上的大會報告內(nèi)容,雷鋒網(wǎng)對其進(jìn)行了不改變原意的編輯整理。
大家下午好!很開心有機(jī)會在此跟大家做關(guān)于 AI 芯片的溝通和交流。純屬個人想法,不代表任何人,只代表我自己。
從 IA 到 AI,我們還要走多遠(yuǎn)?大家知道 AI,恐怕沒多少人知道 IA,我們逐步展開談?wù)?,顯然 AI 和 IA 是有關(guān)系的。大概講幾個內(nèi)容:
一是人工智能技術(shù)與人工智能芯片面臨的挑戰(zhàn)。
二是架構(gòu)創(chuàng)新是人工智能芯片獲得突破的必由之路,目前有很多人做芯片,如何做芯片的架構(gòu),探討比較少,甚至嚴(yán)重不夠。
三是結(jié)束語。
人工智能對人類社會的影響非常深遠(yuǎn),不管我們是否承認(rèn),這件事都發(fā)生了。
全球知名咨詢企業(yè)麥肯錫通過對 300 多家 9 個垂直領(lǐng)域的企業(yè)進(jìn)行案例分析,覆蓋金融、消費(fèi)、電信、健康、能源和材料、媒體、公共和社會服務(wù)、先進(jìn)產(chǎn)業(yè)和制藥等,得出的重要結(jié)論是:人工智能將在幾乎所有垂直領(lǐng)域產(chǎn)生深遠(yuǎn)影響,并不只是針對某一個領(lǐng)域。
這個結(jié)論讓我們做芯片的人非常激動,因?yàn)槿斯ぶ悄軒淼淖兓椭盎ヂ?lián)網(wǎng)、移動互聯(lián)網(wǎng)等顛覆性技術(shù)創(chuàng)新發(fā)生的時候有很大的不同點(diǎn)——硬件將占據(jù)超過 50%。以前,在互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的主導(dǎo)下,許多學(xué)生選擇就業(yè)首先選金融和互聯(lián)網(wǎng);但是在 AI 領(lǐng)域,超過 50% 的科技發(fā)展將由硬件主導(dǎo)。
尤其是未來 10 年,人工智能和深度學(xué)習(xí)將成為提升硅片需求的主要因素;2025 年,人工智能將推動半導(dǎo)體產(chǎn)業(yè)收入超過 600 億美元,接近全球半導(dǎo)體銷售的 20%。
我們的半導(dǎo)體 AI 芯片是否做得很好?并不是。加州大學(xué)伯克利分校的教授 Michael I. Jordan 20 天前在美國做過一場演講,我當(dāng)時在場,他說“與其說我們今天做的是人工智能,還不如說我們做的是增強(qiáng)智能”。這句話的意思是說,我們今天所做的還不能算是真正的 AI(Artificial Intelligence),只是利用技術(shù)來增強(qiáng)某一方面的智能而已,也就是所謂的增強(qiáng)智能(Intelligence Augmentation,簡稱 IA)——之所以說 IA,是因?yàn)榛救斯ぶ悄芩惴ㄟh(yuǎn)未達(dá)到我們的要求。
這里有兩個現(xiàn)實(shí)問題:
第一,AI 算法本身在不斷的演進(jìn),新算法層出不窮。
第二,還沒一種算法可以統(tǒng)一面向所有的應(yīng)用。每種應(yīng)用對應(yīng)一種算法,或者每種算法對應(yīng)一種應(yīng)用。實(shí)際上我們的人腦能夠做很多事情,但現(xiàn)在人工智能的算法依然是一對一的。
我們說一個基本的感知過程:感知-傳輸-處理-傳輸-執(zhí)行,這是一個基本的邏輯關(guān)系。當(dāng)然這其中包括多元感知,就像人有眼睛、鼻子、嘴、皮膚;執(zhí)行時有多種執(zhí)行;傳輸也是多樣化的,有神經(jīng)傳導(dǎo)、皮膚傳導(dǎo)、眼睛傳導(dǎo)、聲音傳導(dǎo)等各種各樣的傳導(dǎo),只是中間不知道如何比喻。
實(shí)際上,計算、分析、經(jīng)驗(yàn)知識和判斷等,到今天為止只是用計算機(jī)的概念代替,也就是用軟件 + 處理 + 存儲的方式來進(jìn)行。
我們想要得出的其實(shí)是這樣一個復(fù)雜的、智能的系統(tǒng):它應(yīng)該是多輸出、多輸入的系統(tǒng),應(yīng)該是高度復(fù)雜又高度靈活的互聯(lián)結(jié)構(gòu),具有多任務(wù)且高度并行運(yùn)算系統(tǒng)、多處理器單元系統(tǒng)、并行分布式存儲、并行分布式軟件、分布式處理和集中控制架構(gòu)等。
實(shí)際上,在座所從事的人工智能芯片,絕大多數(shù)能夠完成的是一種功能,可能兩種,最多三種;要想做到像人似的處理 N 種,還差得很遠(yuǎn)。而且,人在做決定時不是單個決定,而是同時做多個決定,或者叫多個決策同時做,這是今天人工智能遠(yuǎn)未達(dá)到的;我們并不知道但是人腦如何工作,我們可以用計算的方式實(shí)現(xiàn)記憶、行動、特征提取、決策等過程。
我們現(xiàn)在只能依據(jù)計算,原因在于機(jī)器和人腦之間的差別實(shí)在太大。
做一個比較。人的大腦有 140 億個神經(jīng)元,傳輸速度 120 米每秒,工作頻率很低,為 200 赫茲;人腦皮層比較大,可以完成每秒鐘 10 的 16 次方運(yùn)算,把大腦皮層攤開是四分之一平方米,重量是 1.2-1.6 公斤,功耗只有 20 瓦。
而機(jī)器不行,雖然它在某些事情上可能超越人類,但代價非常大。比如超級計算機(jī)可以用多個芯片實(shí)現(xiàn) 10 的 30 次方每秒鐘的運(yùn)算,非常了不起;但它用電傳輸,每秒鐘 30 萬公里,工作頻率每小時 42 億次,耗電量是 24 兆瓦。所以說,機(jī)器和人之間的差別很大,機(jī)器趕上人還要很遠(yuǎn)。
我們目前要實(shí)現(xiàn)人工智能,別無選擇,只能靠芯片。芯片有很多不同的,目前我們已經(jīng)有 FPGA、GPU、CPU 等,我們還可以做所謂的類腦計算,甚至可以做內(nèi)存內(nèi)計算等。然而,這些都是已經(jīng)存在的芯片,它們的基本架構(gòu)早在這次人工智能突破之前已經(jīng)存在了,并不是為人工智能而專門設(shè)計的,因此不能完美地承擔(dān)實(shí)現(xiàn)人工智能的任務(wù);即便能完成,它是不是最好的,這些問題都值得我們思考。
但是我們知道,計算是根本點(diǎn),我們需要有一個很好的計算引擎,這是因?yàn)槲覀兛吹降娜斯ぶ悄芨鞣N網(wǎng)絡(luò)所需要的計算量是巨大的。比如說,2014 年 VGG19 的計算能力要達(dá)到 196 億次每秒,同時處理大概 1.38 億個參數(shù),沒有足夠的算力是做不到的;其次,當(dāng)我們從云端所謂的訓(xùn)練向終端推理推進(jìn)時,我們要求它有極高的效率比,否則終端設(shè)備(比如說智能手機(jī))很快沒電無法運(yùn)作。
所以,我們說需要一個所謂高能效、通用的計算引擎,這是必備的條件。在此條件下,AI 芯片需要有基本特質(zhì),我列出如下(可能還不止):
第一,它的可編程性,要適應(yīng)算法的演進(jìn)和應(yīng)對多樣性;因?yàn)樗惴ú环€(wěn)定,它在不斷變化;
第二,架構(gòu)動態(tài)可變性,要適應(yīng)不同算法;
第三,高效的架構(gòu)變換能力,因?yàn)椴煌倪\(yùn)算要求變換不同的架構(gòu)。我可以斷言一句,目前凡是使用指令結(jié)構(gòu)的,都永遠(yuǎn)無法達(dá)到我們的要求。我們期待高效率的架構(gòu),比如 1W 每秒鐘要 10 萬億次運(yùn)算量。
但是在某些終端應(yīng)用上來說,你的功耗要小于 1mW,在一個電池用一年不換是基本要求。同時,成本要低,才能夠進(jìn)入家電和消費(fèi)類電子;體積要小,才能裝載在移動設(shè)備上;同時還要開發(fā)簡便,讓所有人不必知道芯片如何設(shè)計。
就這些條件來看,CPU + 軟件、CPU + GPU、CPU + ASIC 都不是理想架構(gòu)。
那么,什么是架構(gòu)?人工智能芯片的架構(gòu)應(yīng)該是怎樣的?在談人工智能芯片架構(gòu)之前,我想跟大家回顧芯片發(fā)展歷程中的相關(guān)內(nèi)容。
首先,我們按照硬件可編程和軟件可編程分為四個象限。
第二個象限是硬件處理器,硬件不能動,軟件可變化,比如說 CPU、DSP 等。它們是粗顆粒度的,通常工作在 8 到 64 位,芯片運(yùn)行時可以軟件編程,只需要軟件工程師編程就可以了,能量效率和計算效率都不高。
第三象限是軟件和硬件都不可編程,ASIC、SoC 等。它們的特點(diǎn)是多品種、小批量,一旦完成制造就不能改變,也通常不需要軟件(有的需要軟件,但不是主要的);要想使用,需要對芯片有非常清晰的了解。能量效率和計算效率很高,這是其優(yōu)點(diǎn)。
第四象限是可編程邏輯,如 FPGA、EPLD。硬件可編程,但其實(shí)是靜態(tài)編程;細(xì)顆粒度,可以定義到每一個 Bit,芯片運(yùn)行不需要軟件(有人說 FPGA 需要軟件,其實(shí)不是軟件,而是定義硬件的描述語言,所以 FPGA 不需要軟件)。使用它需要芯片支持,能量效率和計算效率不高。
而第一象限,到現(xiàn)在為止很少有人關(guān)注——軟件定義芯片(SDC),像 RCP、CGRA 等。它的軟件和硬件均可編程,混合顆粒度,最重要的是芯片功能隨軟件變化而變化;在使用中也不需要芯片設(shè)計知識,其能量效率和計算效率雖然沒有專業(yè)集成那么高,但也足夠高。
這是一個全新的領(lǐng)域。
CPU 等處理器是通用高靈活性,但已經(jīng)進(jìn)入寡頭壟斷極端,它需要最先進(jìn)的技術(shù),成本高、價格貴,易受生態(tài)環(huán)境制約;專用集成電路,專用而無靈活性,用量足夠的情況下才能便宜;FPGA 通用高靈活性,和 CPU 差不多。而我們所說的軟件定義芯片,它不存在寡頭壟斷的問題,也并不需要最先進(jìn),夠先進(jìn)就好,擴(kuò)大用量可以降低成本,不存在生態(tài)問題;它一方面具備 CPU 的靈活性,另一方面是專用集成電路的高能量效率和高集成度。
軟件定義芯片畢竟是一個新名詞,那么下一步應(yīng)該怎么做?我們不知道人腦如何計算和思考,因此我們只能用計算機(jī)進(jìn)行大概地推理一下。
比如說,我們要有硬件平臺,這個硬件平臺必須得有高計算能力、多任務(wù)并行計算能力、足夠的吞吐量、極高的能量效率、靈活高效的存儲、適應(yīng)動態(tài)的工作變化,這是支撐智能的基礎(chǔ)。而芯片要實(shí)現(xiàn)智能化,不能光有硬件,一定要有要求很高的軟件——自主學(xué)習(xí)的能力、形成知識和經(jīng)驗(yàn)的能力、持續(xù)改進(jìn)和優(yōu)化的能力、再生和組織能力、思維邏輯推理能力、作出正確判斷和決策能力,這是軟件才能完成的,而非硬件。
如果有人認(rèn)為能夠硬件上做到這一點(diǎn),那一定走錯路了。實(shí)現(xiàn)智能的核心是軟件,所以再進(jìn)一步看,我們要的是軟件定義的芯片——軟件變化時,芯片跟著變化。其實(shí),美國人也在做這項(xiàng)工作,比如說美國最近推出的 ERI(電子振興計劃),其中非常重要的就是軟件定義硬件,它是作為 ERI 項(xiàng)目中的 6 個子課題之一。
前段時間,我在舊金山和美國 DARPA(國防高級研究計劃局,Defense Advanced Research Projects Agency)的項(xiàng)目經(jīng)理交流發(fā)現(xiàn),美國之所以要做這件事,正是因?yàn)樗麄兛吹搅塑浻步Y(jié)合特別是硬件可變性成為未來發(fā)展的重點(diǎn);項(xiàng)目中規(guī)劃的內(nèi)容,就是建立一個在運(yùn)行時可以實(shí)時變化的硬件和軟件,能夠達(dá)到專用集成電路的性能,同時對于數(shù)據(jù)密集型的運(yùn)算不失去它的可編程性——這就是軟件定義芯片。
對我來說,我非常關(guān)注所謂的運(yùn)行時間 “At Runtime”,規(guī)定 300-1000 NS,0.3-1 微秒,這個變化的速度很慢。
那么,F(xiàn)PGA是軟件定義芯片嗎?不是。我把 FPGA 的 10 大缺陷重復(fù)一遍:
FPGA 細(xì)粒度,實(shí)現(xiàn)比特級的運(yùn)算。
配置信息量大,幾兆甚至幾十兆。
配置時間長,少則十幾毫秒到幾十毫秒,甚至要上秒。
靜態(tài)編程,一旦配置完畢不可更改,改變 FPGA 的功能要下電或者在線重新載入配置信息。
邏輯不可復(fù)用,所有電路必須全部裝入 FPGA。
面積效率低,每個 LUT 只能實(shí)現(xiàn)一位運(yùn)算,面積效率只有 5%,一個千萬門級的 FPGA 只能實(shí)現(xiàn)幾十萬門的邏輯電路。
能量效率低,由于邏輯利用率低引發(fā)無效功耗巨大。
需要特種工藝,F(xiàn)PGA 往往需要最先進(jìn)的制造工藝,且需對工藝進(jìn)行特別調(diào)整。
電路設(shè)計技術(shù),應(yīng)用者必須具備電路設(shè)計知識和經(jīng)驗(yàn)。
成本高昂,幾十到幾萬美元一片。
所以 FPGA 不是我們想要的東西;FPGA 不能當(dāng) SdC,不是軟件定義芯片。
那么,為什么要軟件定義芯片?
舉例說明,做芯片設(shè)計時,老板經(jīng)常說“你一定要做差異化的東西,不能跟別人做得一樣”;于是就在規(guī)格(Specification)上做文章——這是完全錯誤的思路,差異化并不是靠規(guī)格設(shè)計出來的。這樣設(shè)計出來的差異化只存在于產(chǎn)品產(chǎn)出的那一段時間,之后就無法更改;別人追上來,差異化越來越小,你的產(chǎn)品便出局。
一個小孩從嬰兒成長為成年人,中間的成長中包括教育、學(xué)習(xí),《三字經(jīng)》說“人之初,性本善,性相近,習(xí)相遠(yuǎn)”。為什么芯片不能這么做?
如果我們的芯片可以在使用過程中不斷學(xué)習(xí),則差異化可以隨著時間的變化而不斷加強(qiáng),這樣的芯片才是真正的智能芯片。現(xiàn)在的做法是訓(xùn)練 + 推理(訓(xùn)練是老師訓(xùn)練,老師利用以前的知識教我們,我們照老師教的方式推理應(yīng)用),這恰好是人工智能發(fā)展的過程;如果我們讓芯片做到這一點(diǎn),我們可以讓芯片做得更好。
現(xiàn)在,我來講一下什么是真正的軟件定義芯片。
一個真正理想的計算應(yīng)該是軟件和硬件的架構(gòu)一模一樣,軟件是什么樣的拓?fù)浣Y(jié)構(gòu),硬件就應(yīng)該是怎樣的拓?fù)浣Y(jié)構(gòu);軟件需要什么樣的運(yùn)算,硬件需要存在這樣的運(yùn)算資源??上У氖牵浖梢院艽?,硬件不能大;我們只好把軟件分塊,跟硬件大小一樣。比如把它分為 6 塊,根據(jù)數(shù)據(jù)依賴關(guān)系把第二塊、第三塊、第四塊放進(jìn)去……一直到第六塊。這要求我們硬件必須隨時改變其功能,硬件功能和架構(gòu)能夠動態(tài)地按照軟件實(shí)時進(jìn)行改變,這是我們所說的軟件定義芯片——這其實(shí)是一件非常困難的事情,我的實(shí)驗(yàn)室做了 12 年才做成。
按照這種思路,我們可以很容易地得到基本架構(gòu):我們將劃分好的軟件通過控制單元送到所謂的數(shù)據(jù)通道中,由數(shù)據(jù)通道來對硬件進(jìn)行編程;因此,我們的編程結(jié)果可以完全適應(yīng)軟件的發(fā)展,這要求我們硬件和軟件完全可重構(gòu)、完全可編程。這是我們的基本思想。
這樣的基本思想與傳統(tǒng)的計算架構(gòu)之間比較,可以看到:
經(jīng)典的計算結(jié)構(gòu)基本上是馮諾依曼的體系結(jié)構(gòu),但是對于軟件定義芯片而言,它是一個函數(shù)化的柔性結(jié)構(gòu)。傳統(tǒng)的架構(gòu)中,應(yīng)用適應(yīng)于計算結(jié)構(gòu),你要知道計算機(jī)結(jié)構(gòu)進(jìn)行編程,而在我們的結(jié)構(gòu)中,計算適應(yīng)于應(yīng)用,這是倒過來的,硬件適應(yīng)軟件。傳統(tǒng)結(jié)構(gòu)中,一個任務(wù)只有一個處理軟件,不可能編 10 個軟件;在我們的結(jié)構(gòu)中,一個任務(wù)有多個等效處理軟件。傳統(tǒng)計算模式中,硬件和軟件不變,但在我們這里,硬軟件動態(tài)選擇性改變。傳統(tǒng)結(jié)構(gòu)中,要高度復(fù)用,在我們的結(jié)構(gòu)中,產(chǎn)生冗余應(yīng)用,這是根本的不同。
但是,我們沒有逃離馮諾依曼的體系結(jié)構(gòu),這是壞事也是好事——壞事是創(chuàng)新不夠,好事是計算理論的完整性。
我們利用這個架構(gòu)來實(shí)現(xiàn)可重構(gòu)神經(jīng)網(wǎng)絡(luò)的的基本想法是:通過 AI 應(yīng)用定義我們所選用的深度神經(jīng)網(wǎng)絡(luò),改變芯片架構(gòu)和功能。如果能做到,我們不僅僅適用一種應(yīng)用,我們可以跟著應(yīng)用不斷變化,適用 N 種應(yīng)用。
這樣的芯片是所謂通用的人工智能芯片。
這個基本運(yùn)算單元有多種不同的能力,我們可以讓它做卷積、池化等各種各樣的內(nèi)容。利用這種方式,我們還可以實(shí)現(xiàn)數(shù)據(jù)通道,完全并行。這樣的結(jié)果是,我們可以把大量不適合硬件做和硬件做得很麻煩的東西,可以一個所謂的 Compiler(不是傳統(tǒng)的 Compiler)來實(shí)現(xiàn),大幅度提升效率。
這里有一個結(jié)果,它是我們?nèi)ツ戢@獎的內(nèi)容。這個結(jié)果是通用 AI 處理器,在 10 兆到 200 兆頻率下,4mW-450mW,運(yùn)算速度達(dá)到 1.06-5.09TOPS/w。另外一個是我們國際會議上報道過的做人臉識別的,小于 100mW,每識別一個只需要 6 個毫瓦時,比人類的人臉識別率高 1 個百分點(diǎn)。
還有一個是語音信號識別,包括語音識別和聲紋識別,其耗電量只有 200 多微瓦。《MIT Technology Review》今年年初在一篇專稿中評論了我們的工作,認(rèn)為這是中國取得的皇冠級別的成就,一節(jié)電池可以用一年多,被認(rèn)為是世界上耗電量最小的語音識別軟件。
我們已經(jīng)工作了 12 年,這是我們?nèi)〉靡幌盗械某煽儭⒄撐暮蛯@?/p>
最后結(jié)束一下。
我們說,大家都在做 AI。但是 AI 到底是什么?我們應(yīng)該怎么做 AI?哪些地方到底需要 AI?我們希望 AI 幫助我們解決什么問題?如果不需要 AI 也可以做,為什么要 AI?其實(shí)我們沒有回答好這些問題?,F(xiàn)在很多應(yīng)用根本不需要 AI,甚至有人用 AI 做幌子。
什么是我們離開就活不了的 AI 殺手級應(yīng)用?語音識別和人臉識別都需要 AI 嗎?未必,特別是語音識別很多時候不需要 AI。當(dāng)然某些情況下語音識別是有作用的。什么樣的 AI 是我們每天都需要的?這是我們的關(guān)鍵。
前兩年很多人認(rèn)為自己超過了美國,有很多這樣的聲音“明年就超過英特爾”“再過 3 年就超過微軟”,我把他們稱之為“嚇尿體”,他們把美國人嚇尿了,最近一段時間,大家都說我們的芯片碰到很大困難,跟前兩年不太一樣,于是“嚇尿體”變成”被嚇尿“了。我們的芯片發(fā)展有自己的步驟,我們確實(shí)不如美國,但也沒有像美國某些人說得那么糟糕。當(dāng)然,我們不像某些人說得那么好,我們在發(fā)展過程中,不要妄自菲薄。
告訴大家一件事:在軟件定義芯片領(lǐng)域中,我們現(xiàn)在大幅領(lǐng)先美國。我的團(tuán)隊(duì)提出軟件定義芯片技術(shù)比美國 ERI 技術(shù)早了 10 年,他提出 300-1000 納秒時間,只是我們現(xiàn)在實(shí)現(xiàn)指標(biāo)的十分之一,我們的性能比它好多了。我現(xiàn)在到國外國際會議上,很多人說我們是國際上做得最好的,我們在軟件定義上在國際走在前列。
總結(jié)來說,AI 技術(shù)不斷進(jìn)步,目前差距依然很大;像人類似的同時做出多個判斷和決定,這樣的算法尚未出現(xiàn)。我們現(xiàn)在是 IA,還不是 AI;芯片是我們不可逾越的障礙,必須通過芯片實(shí)現(xiàn);而芯片的發(fā)展決不是我們今天想象的,做一個芯片就是 AI 芯片。
要讓芯片具有智慧的能力,這是我們真正需要考慮的事情,不是為了 AI 而 AI 。你想讓 AI 芯片在使用中變得更“聰明”,架構(gòu)創(chuàng)新是不可回避的課題。如果你依然用 FPGA,不要有太大的希望,沒有獨(dú)霸天下的可能性。希望大家在芯片發(fā)展過程中特別關(guān)注架構(gòu)的創(chuàng)新,只有架構(gòu)創(chuàng)新才能把大家送到這個領(lǐng)域的巔峰。
-
芯片
+關(guān)注
關(guān)注
456文章
51055瀏覽量
425586 -
集成電路
+關(guān)注
關(guān)注
5391文章
11595瀏覽量
362562 -
人工智能
+關(guān)注
關(guān)注
1792文章
47532瀏覽量
239278
原文標(biāo)題:清華大學(xué)魏少軍教授:什么是真正的通用人工智能芯片?
文章出處:【微信號:industry4_0club,微信公眾號:工業(yè)4俱樂部】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論