華為Mate 40系列手機中國區(qū)的發(fā)布會今天剛剛在上海舉辦,其中最引人注目的部分自然就是在這個特殊歷史時期出現(xiàn)的海思麒麟(Kirin)9000 SoC了。華為照例在手機發(fā)布會前,小規(guī)模召開了一次麒麟芯片媒體溝通會。
有關Mate 40系列手機本身,我將另外撰文,與本文同期發(fā)布。本文主要探討麒麟9000這顆芯片——雖然電子工程專輯此前已經(jīng)在這款手機的全球發(fā)布會期間,對這顆芯片做了簡單的探討,我還是希望能夠更全面地來呈現(xiàn)這顆,未來回看可能具有歷史意義的SoC。
本文篇幅較長,主體上分成5個部分。各位可按照自己感興趣的話題,選擇性閱讀:
(1)配置總覽
(2)CPU
(3)GPU
(4)NPU(與ISP)
(5)5G
153億個晶體管,配置一覽
麒麟9000系列SoC主要包含兩個型號,分別是麒麟9000和麒麟9000E。這兩者的主要區(qū)別是9000E的GPU少兩個核心,以及NPU少一個大核。猜測這可能會是個更經(jīng)濟的做法,因為153億個晶體管實在是很大的規(guī)模:蘋果A14也“不過”118億晶體管(當然A14不帶modem)。其中這次的Mali G78 GPU鋪滿24個核心的實施方案,算是巨大規(guī)模了。又還是初代5nm工藝,考慮到良率問題——通過binning的方式,在產線上劃分出一個9000E,顯然會更經(jīng)濟。
首先當然還是看一看麒麟9000的主要配置情況:
CPU:1x Cortex-A77 3.13GHz,3x Cortex-A77 2.56GHz,4x Cortex-A55 2.05GHz
GPU:Mali G78MP24(9000E為MP22)
NPU:Da Vinci,2x Big-Core,1x Tiny-Core(9000E的Big-Core是1個)
內存:LPDDR4X-2133/LPDDR5-2750
Modem:Balong 5000(Sub-6G,下行雙載波4.6Gbps,上行雙載波2.5Gbps)
ISP:6.0,Quad pipeline,3A(AE/AWB/AF)處理能力提升100%,處理管線速度提升50%
其他:HiFi Audio,4K HDR Video,Mobile Secure Processor
工藝:臺積電5nm(N5?)
這其中比較令人在意的有幾點,其一是CPU部分用的是Cortex-A77。已經(jīng)上市半年多的驍龍865用的就是A77。Arm實則已經(jīng)發(fā)布了Cortex-A78和X1。傳言未來的高通驍龍875和Exynos 1080都會采用Cortex-A78。起碼在新IP的采用上,麒麟芯片晚了一步。另外GPU部分,華為直接跳過了Mali G77,轉而采用Mali G78。這些都會在下文做探討。
除此之外,今年華為似乎格外在意AI的應用——雖然現(xiàn)在看來Android NN生態(tài)(以及華為HiAI)建設仍然比較初級,華為也仍然期望在拍照之外,讓算力在行業(yè)內領先的NPU有更多的用武之地。
尤為值得一提的是,華為今年公布相關麒麟SoC與競品的對比數(shù)據(jù),華為Fellow艾偉在臺上呈現(xiàn)的內容,都更多的出現(xiàn)了“效率”和“能效”,而不再只是單純的性能。這一點實則也是麒麟SoC已經(jīng)完全步入成熟的依據(jù):電子工程專輯的微信服務號很快會發(fā)布一篇海思手機SoC從K3V2時期開始,至麒麟9000這8年來的發(fā)展歷程總結文章。這8年是非常典型的由青澀走向成熟,從差強人意邁向一流的過程。
CPU:一次常規(guī)升級
麒麟9000 CPU部分是1+3+4組合結構,這種組合方法原本也是DynamIQ靈活性的體現(xiàn)。今年年初的麒麟820 5G用的也是這種組合方式,高通也已經(jīng)沿用了兩代。最大的那顆Cortex-A77核心3.13GHz主頻是比驍龍865+(3.1GHz)還要略高一點點的,比去年Kirin 990大核A76的2.86GHz也高了9.4%。Cache分配情況未知。
在提升方面,華為這次并未與前代產品比較,而是說CPU性能比驍龍865+領先10%,能效則領先25%——基于Geekbench 5的跑分。從Geekbench 5數(shù)據(jù)庫來看,驍龍865+相比麒麟990的CPU多核性能領先了大約14-18%。這樣算來,麒麟9000比上一代麒麟990,CPU性能提升大約在25-30%左右。
當然這個對比是不嚴謹?shù)?,Geekbench 5用于反映CPU的絕對性能可能會有偏差。不過Arm官方早前發(fā)布A77的時候就提到,Cortex-A77相比A76有著20-25%的IPC提升,加上麒麟9000的頻率提升,麒麟9000 CPU整體上25-30%的性能提升是在情理之中的。能效部分與前代很難直接比較,而且驍龍865+作為865的提頻版本,在效率上本來就會妥協(xié)——麒麟9000 CPU效率必然是提升的,其中還需考慮到5nm工藝帶來的紅利,與上代產品相較的提升幅度值得做進一步觀察。
需要指出的是,華為從麒麟980開始越來越關注存儲子系統(tǒng)的提升——980配上了DSU 4MB L3大緩存;到了麒麟990,雖然CPU的整體架構和內存支持都沒變,但開始采用新的LLC:system cache(下圖中間部分,系統(tǒng)級別的cache),并降低存儲子系統(tǒng)的整體延遲,令麒麟990的性能表現(xiàn)仍然比980有提升,而且功耗還更低——這一點在當時還是非常驚艷的。
Kirin 990 Die shot source: TechInsights - Labelling & Custom contrast: AnandTech
今年麒麟9000似乎將system cache提升到了8MB(艾偉在說NPU環(huán)節(jié)的Smart Cache 2.0時提到了這一點,“相對直接訪問內存來說,帶寬提升了一倍,能效提升15%”,但不確定是否就是指整個系統(tǒng)LLC的system cache),這應該是相比上代容量的翻番了。實際上高通和蘋果此前也已經(jīng)開始注重這個層級的cache布局。這部分理論上可以在SoC上服務于多個IP,不僅用于提升性能,而且也提升了能效。
此外,LPDDR5支持實則也會對手機的整體系統(tǒng)性能有提升幫助,驍龍865機型已經(jīng)享受了這部分紅利。相比麒麟990,麒麟9000在CPU方面的確是一次比較大的提升。不過也需要在意,今年年中發(fā)布的Cortex-A78能做到與A77相同功耗情況下持續(xù)性能20%的提升;預計晚些時間發(fā)布的驍龍875還是可以超過麒麟9000的——當然這是一個常態(tài),尤其隨著華為的手機SoC步入成熟,每年不同SoC廠商的迭代,都是在不同時間點此消彼長的。
GPU:秒殺高通Adreno?
麒麟9000的GPU部分是非常值得一說的。去年麒麟990并未按照我們的預期,采用Arm Mali G77,而是繼續(xù)采用麒麟980時期的G76。此前我曾撰文提到過,高通如今正逐漸在GPU部分丟失往常的優(yōu)勢:如果Mali G77能夠按照Arm預期的那樣,那么Mali GPU很可能實現(xiàn)對Adreno GPU性能和效率的同時追平。
悲劇的是,華為并未采用G77。而實施G77的三星Exynos 990(Mali G77MP11)與聯(lián)發(fā)科天璣1000(MP9),在規(guī)模上都不夠大——前者多方面的問題還相當一言難盡。這就讓我們無從了解,G77到底是個什么水平。加上驍龍865的Adreno 640小小發(fā)揮了一下,在不少測試中的效率表現(xiàn)都和蘋果相差不大了(性能仍有差距),Arm Mali陣營這邊就急需一款產品來證明GPU的實際水準。
麒麟9000直接跳過G77,用上了Mali G78。華為給出的數(shù)據(jù)是,相比驍龍865+,麒麟9000的GPU性能領先52%,能效領先50%。從華為的PPT來看,對比的是GFXbench 5.0 Aztec Ruins Vulkan項目(不過極有可能,性能提升和效率提升的測試條件是不同的)。無論如何,這兩個分數(shù)都是相當巨大的領先,這使得今年Mate 40系列手機的游戲表現(xiàn)非常令人期待。
單純從這個跑分來看,可能已經(jīng)達到了蘋果A13或者A14的水平——余承東在手機發(fā)布會現(xiàn)場列出了iPhone 12 Pro與Mate 40 Pro+的GPU跑分性能,兩者似乎的確已經(jīng)是相近水平:雖然目前還不清楚這是峰值性能還是持續(xù)性能,以及并未有能效比較的數(shù)據(jù)。
華為自己的實際游戲性能測試是,“某國內TOP MOBA類游戲”滿幀狀態(tài)的能效,平均比“友商”(也就是驍龍865 Plus,三星Galaxy Note 20 Ultra)優(yōu)秀20%;包括《王者榮耀》《和平精英》《明日之后》等在內的多款主流游戲,系統(tǒng)能效比都優(yōu)于驍龍865+——這似乎還是華為首次在反復提GPU的“能效”,而不單純是性能:表明這次的底氣比以往都更充足。
事實上,Mali G78相比G77并沒有發(fā)生太大的變化。但G77是首次換用了Valhall架構——算是一次大變動,G78則是個改款。仍然建議有興趣的同學閱讀此前有關Mali G77的文章《Arm新版Mali GPU簡析:這次終于趕超高通和蘋果?》。G77相比G76,性能密度提升30%,能效提升30%;主要是G77的shader核心換用新的執(zhí)行引擎,16-wide warp執(zhí)行模型,合并為一個執(zhí)行引擎,提升ALU利用率。
因為此前G76已經(jīng)有了一次Arm Mali陣營的大躍進,所以G77就紙面數(shù)字來看還是比較優(yōu)秀的。而G78,Arm的數(shù)字是結合微架構與制造工藝的雙重改進,相較G77有25%的性能提升。相同工藝情況下,性能密度提升15%(相同面積下,獲得15%性能提升);能效提升10%。
Mali G78支持的最大核心數(shù)目提升到了24個核心,不知該說Arm Mali這種增多核心的路線是種進步還是退步——麒麟9000顯然拉滿了這個數(shù)字,算是G78的頂配了(9000E則為22個核心),從去年開始似乎華為已經(jīng)不再走過去那種高頻少核的路線了。
G78的執(zhí)行核心與前代相比沒什么變化,就是延續(xù)了Valhall架構的特色(16-wide,合并為一個引擎);shader核心整體上也沒什么變化。其最大的變化在于從整個GPU的全局頻域(frequency domain)變?yōu)閮杉壗Y構,最頂級的共享GPU模塊為一個頻域,shader核心為一個頻域——也就是GPU內部不同步的時鐘域,shader核心可以跑在不同的頻率下。只是不知道麒麟9000是否實施了這個方案。
這事實上解決了Mali GPU一個很大的問題:要在屏幕上推更多數(shù)量的多邊形時,以前只能全面推高運行頻率。如今市面上出現(xiàn)的新游戲普遍是幾何處理工作偏重的,將tiler和幾何引擎運行頻率解耦,就能夠解決吞吐不平衡的問題。另外就是,理論上能效也能得到改進——只不過要增加額外的電壓域實施,也就增加了系統(tǒng)的成本。除此之外,G78的FMA引擎做了翻新,主要是乘法器結構變化,以及FP32和FP16路徑做了隔離,據(jù)說是以面積來換取30%的節(jié)能。
大概也是因為GPU性能和效率水平真的上來了,艾偉今年談了不少游戲畫質相關的東西。而且事實上,在《原神》這類游戲開始出現(xiàn)在手機之上,更多原本屬于PC和主機的游戲體驗、特效,都開始向移動平臺遷移。
包括SSR屏幕空間反射、MSAA/TAA抗鋸齒,以及動態(tài)模糊、體積光+實時陰影等更好的游戲畫質實現(xiàn)上,華為宣傳的是麒麟9000在更好地實現(xiàn)這些特效的基礎上,同時做到高幀率,以及更高的效率——如上圖所示,是對比某尚未發(fā)布的游戲,在開啟HDR、MSAA抗鋸齒等特性后,穩(wěn)定60fps運行,以及實現(xiàn)比“友商芯片平臺”(這個對比對象未知)高了一倍的效率(圖中中間mW/frame數(shù)值)。這其中應該也有AI的輔助:早年Kirin 970時期起,通過機器學習來達成針對特定游戲、特定設備的最優(yōu)化DVFS調度。
所以Mate 40的GPU實際表現(xiàn),的確令人十分期待。驍龍875的GPU恐怕會面臨比較大的壓力。
NPU:現(xiàn)在有什么用?
麒麟9000的NPU升級到達芬奇架構2.0,“NPU算力翻倍”。當然我們不清楚達芬奇架構2.0相比1.0,到底改了些什么。比較抽象的形容是“MAC規(guī)模翻倍,卷積網(wǎng)絡性能翻倍,核間通訊帶寬翻番”。所以AI Benchmark(ETH AI Benchmark V4.0)之類的拿“全球第一”也并不奇怪。另外華為這次特別提到了Int8數(shù)據(jù)類型的性能與能效。
艾偉說AI普及后,手機終端越來越多地需要做8位整型數(shù)據(jù)計算,而不是浮點FP16。用ResNet50網(wǎng)絡來跑,麒麟9000的Int8性能較驍龍865+高出60%,能效則高了150%——這應該和高通的AI Engine始終不上專核,而主要靠強化DSP與異構計算有關。
SoC層面另外值得一提的就是前文已經(jīng)提到過的system cache。由于這個末端cache容量增大,很多情況下各IP模塊就不需要再去調用DRAM。由于帶寬的成倍增加,以及能效的提升,NPU與其他處理器工作的實時性才有更好的保障。
往年的NPU介紹,大致上也就停留在這個程度了。今年華為似乎急著想要證明,NPU究竟能用來做什么。事實上,Android陣營的AI生態(tài)發(fā)展得并沒有那么高速,即便華為始終在說HiAI支持的人工智能網(wǎng)絡算子是業(yè)界最多。但華為在這個生態(tài)上的建設,真可謂不遺余力。這次艾偉主要列舉了NPU的三個用處:AI視頻處理、AI拍視頻、AI AR。
視頻逐幀卡通化處理
首先是AI視頻處理。2017年的麒麟970時代,華為演示2000張照片智能識圖需要60秒,而到了麒麟9000同樣的識圖過程只需要1秒鐘。這一點帶來的價值放到視頻之上,就是AI實時處理復雜網(wǎng)絡。過去針對視頻中的每一幀畫面,都只能執(zhí)行圖像分類、目標檢測、語義分割、實例分割、圖像編輯等其中的一種操作;但現(xiàn)在針對每一幀,都能執(zhí)行以上的所有操作。
到實際應用里,華為現(xiàn)場演示的是視頻的實時卡通化:針對一段視頻,每一幀都能做輪廓提取、紋理優(yōu)化和區(qū)域分割,并實現(xiàn)每一幀的卡通化。我在現(xiàn)場演示中看到,這個過程的確是完全實時的:通過攝像頭拍攝的取景畫面就實時呈現(xiàn)出了畫面的卡通化——而不是延后處理——以前我們也見過將畫面卡通化的app,但那些要么只能處理照片,要么就是對視頻有延后處理的長時間等待過程。
另外,除了這種娛樂向的應用,AI視頻增強特性中的一個很有意義的應用是將低分辨率的視頻upscale成高分辨率——整個過程實現(xiàn)的是每幀畫面的去噪、銳化、超分、色彩增強。其中超分,是能夠將原畫面實現(xiàn)2-3倍的分辨率提升的,比如480p分辨率的視頻可以upscale至1080p。起碼華為現(xiàn)場演示的效果很不錯。
針對一些片源本身就不清楚,或者由于網(wǎng)絡環(huán)境關系無法觀看高分辨率視頻的情況,這種在本地將視頻“超分”為高分辨率的解決方案是的確能夠提升觀看體驗的。不過這個方案仍然需要第三方播放器做出支持,華為提到后續(xù)會在HMS中通過AV Pipeline開放——HMS此前我在介紹HarmonyOS系統(tǒng)時已經(jīng)提過多次,HMS是可為開發(fā)者提供各種Kit和API的一個中間層。
上面談的是AI視頻處理,接著是AI拍視頻。這部分華為宣傳的是“業(yè)界首次實現(xiàn)ISP+NPU融合架構”。在拍視頻時,從攝像頭的CIS獲取到畫面數(shù)據(jù),隨后進入ISP+NPU的融合結構里,其管線如上圖所示。具體數(shù)據(jù)是如何在NPU與ISP兩個硬件之間流動的,就不得而知了——但這兩者間一定是有分工的,比如常規(guī)的3A(自動白平衡、自動曝光、自動對焦)肯定由ISP執(zhí)行,而去噪之類的操作可以交給NPU。此前靜態(tài)照片拍攝,AI如何介入ISP的流程,甚至包括自動白平衡這類傳統(tǒng)項亦可由AI單元去完成,谷歌AI Blog就分享過很多這方面的技術細節(jié)。
但“首次”實現(xiàn)ISP+NPU的融合,細算起來或許還有其他競爭對手。除了iPhone在照片拍攝時如今也應當有這樣的流程;比較具有代表性的是谷歌Pixel手機。
Pixel從二代起加入Pixel Visual Core(或Visual Neural Core),這是個專門用作圖像處理的AI硬件——只不過谷歌并不是手機SoC制造商,自己沒有能力給手機的主SoC融合一個這樣的單元,所以Pixel Visual Core是以獨立的形式存在的。理論上它也與ISP做協(xié)同,實現(xiàn)Pixel拍照的過程。只不過猜測其時延會比較高(畢竟是芯片間通訊),所以谷歌做畫面的AI加強,似乎始終都不曾涉及視頻(最多好像也只有動態(tài)照片的AI防抖等特性)。
華為提到,麒麟9000的ISP+NPU處理時間<33ms,就相當于過去單獨ISP處理攝像頭拍攝的數(shù)據(jù)一樣,這的確算是個性能跨越。值得一提的是,今年麒麟9000的ISP為“Kirin ISP 6.0”,包括3A處理能力的100%提升,以及Quad Pipeline擴張做到處理管線速度50%的提升——這應該也是實現(xiàn)AI視頻拍攝整體處理時間<33ms的重要原因。所以ISP與NPU的算力堆砌在此都非常重要,iPhone 12似乎都仍然做不到AI視頻拍攝的實時處理。
這一點,華為也專門在演示中做了對比。即iPhone 12 Pro相較Mate 40 Pro,暗光視頻拍攝能力,在畫面的細節(jié)呈現(xiàn)上有差距——這是后者用NPU+ISP協(xié)同工作達成的。
另外由于算力的彪悍(與包括system cache在內的通訊的高效),Mate 40也做到了視頻的實時4K HDR——這里的實現(xiàn)層級是在SoC之上的ISP與NPU(而非CIS及堆棧的ISP,不過想必索尼CIS的高速讀出技術在此也是不可或缺的)。華為宣稱是“逆光HDR視頻超越人眼”,達到108dB動態(tài)范圍。
最后是AI+AR
實際上華為宣傳的AI+AR的,本質就是做計算視覺,將手機攝像頭看到的世界,通過SLAM(同步定位與地圖構建)+語義理解,令AR能夠識別周邊的東西是什么,并且對對象距離、尺寸做測量——那么無論針對人臉做識別建模,還是對周圍環(huán)境做識別建模,都能做到實時的感知;感知測量也能達到更高的精度。
艾偉說,“這個功能以前我們用軟件來實現(xiàn),比較耗電,花的時間也比較長。這一次,我們提供專門AR硬化的加速器模塊”,“同樣一個AR識別,時延降低40ms,功耗降低36mA”。
AI+AR的特性究竟能用來做什么呢?華為設想的是,手機作為信息入口,通過AI+AR,不管是人、物體,還是結構化文字,都能做到實時的識別。且在識別、測量之后,將脫敏的數(shù)據(jù)傳輸?shù)皆贫?云端有海量數(shù)據(jù)庫與知識圖譜。于是“它就變成了一個新的陪伴”,“陪伴我們的一個超智慧的感知體驗”。未來的一切,從單點對象到整個世界,都可將其實時數(shù)字化、識別,并與云端組合到一起。
而此間的傳輸過程又與5G有著不可分割的關聯(lián)。
5G:合在一起,打開新世界的大門
在本文最后上價值之前,還是先來看看麒麟9000的5G modem部分。由于麒麟985 5G就已經(jīng)用上了Balong 5000 modem,所以似乎這次Mate 40系列手機支持5G已經(jīng)不是新鮮事了。
但華為還是展示了Mate 40一些更為細致的5G數(shù)據(jù)。包括在sub-6GHz頻段下,5G SA下行雙載波速率4.6GHz,上行雙載波速率2.5GHz,相比驍龍865與A14+X55 modem的方案,理論峰值速率是其2倍(iPhone 12為5G單載波)。不過X55 modem實際上是支持毫米波的,但毫米波的基礎設施建設或許就現(xiàn)在看來還沒有那么及時:iPhone 12美國版支持毫米波。而實測數(shù)據(jù),從華為自己的數(shù)據(jù)來看,Mate 40與iPhone 12還有更大的差距——這部分還是可以等一等更多評測機構的數(shù)據(jù)。
時延部分,上面這張圖是在杭州一塊區(qū)域內的室外測試,綠色部分是指<< span="">30ms終端到服務器的時延。這塊區(qū)域的實測數(shù)據(jù)是,Mate 40 Pro有84%的在網(wǎng)概率是<< span="">30ms時延的,16%的概率時延在30-100ms。而從華為的數(shù)據(jù)來看,iPhone 12是剛好相反的。實際上,在4G網(wǎng)絡之下,100-150ms時延就已經(jīng)有相對流暢的游戲體驗了。因此這也是5G帶來的便利。
不過上面這些數(shù)據(jù)實則并不只是5G modem的問題,可能涉及到了整個RF系統(tǒng)以及天線,乃至手機制造商的系統(tǒng)設計。而且其復雜性之甚,大約還有更多的維度可以探討。
在5G的問題上,現(xiàn)有5G手機用戶普遍的反饋是,沒有對應的使用場景,不需要那么高的吞吐與那么低的時延。延續(xù)前一個AI+AR的段落,艾偉對此的看法是:以上麒麟9000改進的每一點都有用。
當它們合在一起的時候,是打開新世界大門的時候。“以今天5G手機的發(fā)展速度,經(jīng)過一個正常的換機周期,兩年以后,整個存量市場超過一半會是5G手機——這還是偏保守的數(shù)據(jù)。那么應用環(huán)境變化會自然跟隨發(fā)生變化?!?/p>
“就像4G時,有了3G沒有的移動支付、共享經(jīng)濟。到5G時,我們會擁有4G所沒有的實時虛擬世界,數(shù)字世界與真實世界的結合?!卑瑐フf,“而且這并不需要太長時間,一定是在兩年以內?!笨磥眵梓?000是為此打下了一個基礎。
原文標題:全面剖析麒麟9000:華為Mate 40碾壓了誰?
文章出處:【微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
智能手機
+關注
關注
66文章
18499瀏覽量
180389 -
華為
+關注
關注
216文章
34472瀏覽量
252008 -
5G
+關注
關注
1355文章
48469瀏覽量
564642
原文標題:全面剖析麒麟9000:華為Mate 40碾壓了誰?
文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論