?
隨著神威藍(lán)光超級計算機(jī)的問世,中國成為繼美國和日本之后成為第三個采用自主CPU構(gòu)建千萬億次級超級計算機(jī)的國家。在這之前,一提到國產(chǎn)自主高端CPU,人們的第一反應(yīng)便是中科院計算所研制的“龍芯”處理器,但這次神威藍(lán)光裝配的卻是出自江南計算所的神威1600A處理器。這一消息讓國人為之一振,原來國產(chǎn)高端處理器不止“龍芯”一家啊,也讓國外業(yè)者對中國在處理器事業(yè)上的進(jìn)步刮目想看。其實(shí),在“中國制造到中國創(chuàng)造”的國家戰(zhàn)略下,我國在高科技領(lǐng)域可以說是全面追趕,已經(jīng)在很多領(lǐng)域取得了一定的建樹。本文中筆者將帶大家認(rèn)識幾款國產(chǎn)處理器中的佼佼者,旨在讓大家能更更深入的了解國產(chǎn)處理器的發(fā)展。
本文按照架構(gòu)的差異將國產(chǎn)處理器分為三個部分,分別是MIPS架構(gòu)、Alpha架構(gòu)和ARM架構(gòu)(從大的分類來看這三種架構(gòu)都屬于精簡指令集計算機(jī)(RISC),而多數(shù)X86處理器屬于復(fù)雜指令集處理機(jī)(CISC)。比起CISC架構(gòu)來,RISC架構(gòu)擁有可充分利用VLSI芯片的面積,可提高計算機(jī)運(yùn)算速度,便于設(shè)計(設(shè)計復(fù)雜性比較低),可降低成本,提高可靠性以及有效支撐多種高級語言等特點(diǎn)。我國處理器產(chǎn)業(yè)發(fā)展目標(biāo)就是擺脫對西方軟硬件的依賴,從RISC架構(gòu)處理器便是最佳選項(xiàng)。而在專利方面,在這三種架構(gòu)上的研究也有一定的便利條件,國內(nèi)的ARM和MIPS架構(gòu)處理器的研制已獲得相關(guān)機(jī)構(gòu)的全面授權(quán),而神威處理器所采用的Alpha兼容架構(gòu)也是DEC公司15年前的專利,也快要超出專利追溯期。適合在相對較低制程下研制主流性能的處理器。
“龍芯”處理器是中科院計算所的研究小組在“龍芯之父”胡偉武教授的帶領(lǐng)下設(shè)計和研發(fā)的。而處理器的量產(chǎn)是交由北京神州龍芯集成電路設(shè)計有限公司來完成的。這家公司是由中國科學(xué)院計算技術(shù)研究所和江蘇綜藝股份有限公司共同投資創(chuàng)辦的,于2002年底在北京市中關(guān)村注冊成立, 是一家專門開發(fā)、銷售具自主知識產(chǎn)權(quán)的龍芯系列微處理器芯片(CPU)、硅知識產(chǎn)權(quán)(CPU-IP)以及相關(guān)嵌入式系統(tǒng)產(chǎn)品的高新技術(shù)企業(yè)。

?
從誕生到現(xiàn)在經(jīng)歷了三代產(chǎn)品,其中最新的就是“龍芯3”處理器,這是一款8核處理器,其主頻為1.05GHz,擁有8個四發(fā)射亂序執(zhí)行處理核心(每個核心有九級流水線,2個定點(diǎn)單元、2個浮點(diǎn)單元(每個每個浮點(diǎn)單元支持256位向量運(yùn)算)和1個訪存單元,采用交叉開關(guān)進(jìn)行核間互連,并采用通過HT接口進(jìn)行片間可伸縮互連。)。緩存方面,每個處理器核的一級指令cache和數(shù)據(jù)cache各64KB,八個處理器核通過交叉開關(guān)共享4MB的二級cache。內(nèi)存方面集成了兩個DDR2/3-800控制器。在1GHz下可提供高達(dá)16 GFLOPs每核的浮點(diǎn)計算能力,而在1.05GHz下可提供160 GFLOP的雙精度浮點(diǎn)處理能力。同時代的3.3GHz Intel Core i7 3960X(擁有新的AVX指令集)在峰值情況下可提供160 GFLOPs的計算能力,而上一代的Core i7 990X 峰值情況下可提供90 GFLOPs,AMD FX8150可提供110 GFLOPs的峰值處理能力。相比之下,“龍芯3”雖然不是性能最強(qiáng)的,但其能耗卻是最低的(其TDP僅為40W)。

?
需要補(bǔ)充的是,“龍芯3”處理器還有一個存有200個擴(kuò)展指令的獨(dú)立“盒子”,其作用是使用QEMU(開源虛擬機(jī)之一)對X86軟件進(jìn)行加速(Alpha處理器也曾嘗試使用類似技術(shù)對運(yùn)行在Alpha Windows NT上的軟件進(jìn)行加速)。使大部分軟件的運(yùn)行都能達(dá)到原生速度,而其面積只占整個處理器面積的5%。
鑒于“龍芯3”的每個核心已足夠高效,“龍芯3”的發(fā)展方向?qū)⑹?8nm制程的16核版本,其模型很有可能于2012年下半年推出。核心設(shè)計將進(jìn)行小幅改動,主頻將提升到1.6GHz,二級緩存將進(jìn)一步增大,而一級緩存將保持不變。
軟件方面,已有數(shù)款Linux發(fā)行版本提供了對“龍芯3”的支持,其中包括Debian,Gentoo,Mandriva以及Red Flag。而BSD和Windows CE在很早以前便可以在“龍芯”處理器上運(yùn)行??上У氖窃谙M(fèi)級市場上,我們還很少見到裝備“龍芯”處理器的設(shè)備,不過相信隨著技術(shù)的成熟,在不久的將來也許可以見到使用“龍芯”處理器的Android或Windows 8平板電腦。
還記得世紀(jì)之交時,Alpha處理器曾大方異彩,它采用經(jīng)典RISC架構(gòu)(設(shè)計簡單,擴(kuò)展性強(qiáng))、對于原生速度的關(guān)注以及純粹的64位設(shè)計(避免了對32位的兼容性問題)。在1993到2001年間,Alpha處理器作為常勝將軍,創(chuàng)造了所有與處理器性能有關(guān)的記錄,僅在某些DEC不太關(guān)注的方面(內(nèi)存接口和I/O系統(tǒng))失手。其中為DEC贏得最多美名的處理器就是Alpha 21264 EV5系列處理器(經(jīng)歷了處理器制程發(fā)展的三個階段0.50微米,0.35微米以及0.25微米)。
在1996到1997年間,0.35微米制程的21164A處理器成為了最廣泛使用的Alpha處理器,其原始頻率達(dá)到了667MHz,在測試中得分達(dá)到了同時代Intel Pentium處理器(主頻266MHz)的二倍以上。其后繼21164處理器也繼承了簡單的設(shè)計和高效的執(zhí)行能力(高主頻、四發(fā)射順序執(zhí)行,功耗僅25W),性能上僅稍稍落后于數(shù)年后才推出的Pentium III “Katmai”處理器(主頻600MHz,功耗達(dá)75W)。
接下來,便迎來Alpha處理器發(fā)展的轉(zhuǎn)折點(diǎn),即Alpha 21264 EV6亂序執(zhí)行核心的誕生(其每時鐘周期處理性能達(dá)到了原來的二倍,而功耗也達(dá)到了原來的三倍),其發(fā)展也經(jīng)歷數(shù)個制程階段。它和繼任者21364 EV7把性能記錄保持到了2002年(之后Alpha處理器也就從公眾視野中消失了)。2000年問世的EV7在存儲和I/O的設(shè)計屬于革命性的創(chuàng)新設(shè)計(處理核心采用了與EV6相同的架構(gòu)),存儲包括1.75MB的片上二級緩存,集成了一個10通道Rambus內(nèi)存控制器(充分利用二級Cache作為內(nèi)存系統(tǒng)低延遲緩存的功能),四個并行6.4GB/s一致性內(nèi)部鏈接連接到另外四個核心上,最高支持512 socket以及目錄協(xié)議。5年后的AMD HyperTransport和更晚的Intel QPI也采用了類似的設(shè)計。
再看看21464 EV8,這是第一款采用八發(fā)射超標(biāo)量亂序執(zhí)行的對稱多線程核心的處理器,每個核心擁有四線程處理能力。繼任者21564 EV9處理器增加了核心數(shù)量(于2004年推出),加入了高性能向量處理單元(1 KILOBYTE處理帶寬),可提供100 GFLOPS DP 每核的浮點(diǎn)處理能力,這樣的處理能力在2011年也屬主流(需要6到8個核心才能達(dá)到),組建其性能之強(qiáng)悍。遺憾的是由于種種原因,采用超前設(shè)計的EV8和EV9并沒有得到量產(chǎn)。
在90年代后期,我國成功地引進(jìn)了Alpha架構(gòu),構(gòu)架了數(shù)個以Alpha為核心的龐大系統(tǒng),并從Compaq和DEC公司取得了Digital / Tru64 Linux和相關(guān)軟件棧的全權(quán)許可(包括所有源代碼)。推進(jìn)了自主研發(fā)Alpha架構(gòu)處理器的進(jìn)程。經(jīng)過數(shù)十年的努力(三代處理器),江南計算所推出的神威SW-3處理器——自定制Alpha處理器,并用于裝配超大規(guī)模Petaflop級超級計算機(jī)神威藍(lán)光MPP。而長達(dá)一年的測試實(shí)驗(yàn)證明了其作為超算專用處理器的資質(zhì)。
?
SW3 aka SW1600是一款16核,64位RISC指令集處理器,而每個核心都是21164A EV56加強(qiáng)版(加入向量浮點(diǎn)處理單元,主頻范圍為1到1.1GHz,制程為65nm)在標(biāo)準(zhǔn)情況(主頻1.1GHz)下,處理器浮點(diǎn)處理性能可達(dá)141 GFLOPs DP。裝配在藍(lán)光超級計算機(jī)上的處理器頻率為925MHz,配置有四通道128位DDR3內(nèi)存控制器(可提供68GB/s的內(nèi)存帶寬,相當(dāng)于8通道DDR3-1066服務(wù)器內(nèi)存帶寬)。Cache方面,繼承了21164的Cache設(shè)計,一級Cache為2 X 8KB,二級Cache為 96KB構(gòu)成了低延遲緩存系統(tǒng),其中一級緩存的延遲僅為2個時鐘周期。向量處理單元方面,擁有類似AVX設(shè)置,如果將頻率設(shè)置為1GHz,每個核將可以提供8 GFLOPs DP的處理能力,而整個芯片功耗僅為40W左右。
看看神威藍(lán)光超級計算機(jī),它配置了8704個神威SW1600處理器(其中用8575個在975MHz下運(yùn)行了Top100 bench測試程序)組成了34個超級節(jié)點(diǎn)(每個由256個節(jié)點(diǎn)組成),150TB內(nèi)存,2PB硬盤,性能可達(dá)1.07 PFLOPS,持續(xù)處理能力可達(dá)796 TFLOPS,效率達(dá)74.3%,峰值功率為1074KW。
神威處理器的未來發(fā)展有幾種可能性,第一種,繼續(xù)已經(jīng)長時間停滯的Alpha架構(gòu)研發(fā),包括8發(fā)射核心(不管是順序還是亂序執(zhí)行),更快每核浮點(diǎn)處理單元以及最新的Cache和內(nèi)存架構(gòu)的加入。第二種,對現(xiàn)有的核心進(jìn)行有效的改進(jìn),比如增加單芯片核心數(shù)量,提升主頻或增加向量處理單元位寬和內(nèi)存帶寬(這種改進(jìn)與Intel的 Knights Corner加速器比較類似)。還有就是設(shè)計出片上Teraflop處理器。但它們的實(shí)現(xiàn)都需要制程的支持,必須將現(xiàn)有制程提升到32nm甚至28nm(龍芯處理器3B也需要制程提升)。
除了高端MIPS和Alpha架構(gòu),ARM也是非常成功的架構(gòu)(定位不同,ARM主要定位入門級和移動設(shè)備),現(xiàn)在被廣泛應(yīng)用于移動設(shè)備上。國內(nèi)已有多家企業(yè)獲得ARM授權(quán),可以自主研發(fā)和生產(chǎn)ARM架構(gòu)處理器。下面就來看看幾款比較有代表性的產(chǎn)品。
?
總部位于福州的瑞芯公司就提供了成功的個人娛樂終端解決方案,使用配置自定制Cortex A8核心的SOC。其最新產(chǎn)品RK29xx 是首款可以硬盤解碼 Google WebM VP8的芯片,主頻為1.2GHz,配置有512KB二級緩存,集成GPU(60 million polygons/s)和DSP加速器(可播放大部分格式的1080p視頻),支持最大分辨率為1280 x 800的移動設(shè)備。雙核版本正在研發(fā)中。下一代的雙核A9 RK3XXX也是蓄勢待發(fā),本以為會在前不久的CES上發(fā)布,還是推遲了。
?
總部位于杭州的囯芯公司在3年前獲得了ARM授權(quán),主要研發(fā)數(shù)字娛樂、數(shù)字電視盒和機(jī)頂盒的處理芯片?,F(xiàn)已成為國內(nèi)前十的芯片設(shè)計公司,其產(chǎn)品有GX1100, 1200, 1500, 和3000四個系列的ARM架構(gòu)SOC處理器。
?
大唐電信旗下位于上海的聯(lián)芯科技有限公司致力于研發(fā)國產(chǎn)ARM架構(gòu)通信芯片——MPCore,這款芯片采用自定制Cortex-A9架構(gòu)(采用了臺積電40nm低功耗制程技術(shù)),集成Mail-400 MP圖形處理核心。主要產(chǎn)品是用于高端移動設(shè)備的TD-SCDMA標(biāo)準(zhǔn)單核或雙核處理器(包含基帶芯片)。
位于上海的燦芯半導(dǎo)體成立于2008年,已經(jīng)獲得了ARM公司包括Cortex, ARM9, ARM11 and Mali的長期授權(quán)。協(xié)議中覆蓋了Coresight debug 、跟蹤技術(shù)以及與AMBA片上總線兼容的外設(shè)。客戶方面燦芯半導(dǎo)體為電子公司提供設(shè)計服務(wù),在制造商方面與中芯國際合作,并于2011年初推出了40nm產(chǎn)品。同樣位于上海的盈方電子有限公司獲得了ARM11 , Cortex-A5 、Cortex-A9 、the Mali300 and Mali400 GPUs的設(shè)計和生產(chǎn)許可,為碩穎實(shí)業(yè)有限公司提供移動設(shè)備的芯片解決方案。而珠海的全志科技公司則關(guān)注高清多媒體處理器的開發(fā),使用Cortex-A8和Mail-400 GPU設(shè)計出了支持高清播放的處理器,并被一系列Android系統(tǒng)的平板電腦、智能電視、個人多媒體播放器電紙書、智能多媒體播放器、IP攝像頭以及自動多媒體機(jī)器人所采用。
目前這類授權(quán)自ARM構(gòu)架的國內(nèi)研發(fā)廠商,多把目標(biāo)集中在高性價比的個人電子消費(fèi)產(chǎn)品市場。不具備構(gòu)架級別的重新設(shè)計能力,不過本身一般都會集成性能突出的視頻硬解碼引擎,這是相比國外同行高通、TI等優(yōu)勢所在,也符合中國的國情。
?
最后,將要為大家介紹一款自主架構(gòu)的處理器(由深圳中微電科技有限公司推出),這款系統(tǒng)級芯片(SOC)采用和諧統(tǒng)調(diào)處理器技術(shù),不單把兩種不同類型的處理器包括中央處理器(CPU)和圖像處理器(GPU)(設(shè)計思路與AMD公司的APU比較類似,但采用了優(yōu)化過的新指令集), 統(tǒng)一在一個核芯內(nèi),同時結(jié)合了多線程虛擬管線(MVP)、平行運(yùn)算內(nèi)核、獨(dú)立的指令集架構(gòu)、優(yōu)化的編譯器、以及靈活切換的動態(tài)負(fù)載均衡等嶄新技術(shù)。這款處理器將主要應(yīng)用于掌上移動設(shè)備,如基于Android系統(tǒng)移動設(shè)備。最初產(chǎn)品ICube IC1是一款600 MHz 雙核八線程32位SoC處理器,擁有5160DMIPs 的吞吐量,集成了GPU(性能為70 million polygon/s, 600 Mpixel/s)以及一個支持全高清影像HDMI/DVI接口、攝像頭接口720p播放加速、5.1聲道、存儲卡、USB、3G和Wifi連接的主控。這款多線程處理器不僅支持OpenMP和Pthread,其GPU還支持?jǐn)?shù)據(jù)級并行、任務(wù)級并行、功能級并行處理(中斷和上下文切換消耗很小)以及異構(gòu)GPGPU應(yīng)用包括OpenGL ES2.0和OpenCL。主要配置包括,每個核心配置一個64KB 一級數(shù)據(jù)Cache、一個64KB的一級指令Cache、一個64KB SRAM、一個32位的全局寄存器文件。內(nèi)存方面,包括一個八通道DMA、一個16源中斷控制器。且每個核面積僅為3.0平方毫米(包括內(nèi)存)。其功耗僅為300mW。
總的來說,我國的處理器設(shè)計和制造已覆蓋了整個主流領(lǐng)域,可以為各種電子產(chǎn)品提供處理器解決方案。更重要的是,國內(nèi)處理器研究在自主指令集設(shè)計上有了長足進(jìn)步,這樣以來國產(chǎn)處理器的發(fā)展道路就能夠越走越寬。
評論