0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

華為編譯器吳峰的自述

工程師 ? 來源:華為人 ? 作者:華為人 ? 2020-10-16 12:02 ? 次閱讀

我是“翻譯官”優(yōu)化師吳鋒

2015年我加入華為中軟院編譯器實(shí)驗(yàn)室,那時(shí)候它還叫歐拉六部。

其實(shí)程序員敲代碼寫的編程語言機(jī)器是看不懂的,需要先翻譯成匯編語言,也就是一條條指令,再轉(zhuǎn)換成二進(jìn)制,這樣機(jī)器才明白我們要做什么。編譯器就像是“翻譯官”,把程序員懂的編程語言轉(zhuǎn)化成機(jī)器認(rèn)識的二進(jìn)制,如果這個(gè)“翻譯官”看不懂編程語言或者翻譯的速度慢,在性能上的影響就可想而知了。

性能雖然可以通過手動改寫匯編語言(機(jī)器指令)進(jìn)行優(yōu)化,但匯編語言復(fù)雜難寫、工作量大、不易理解,如果不想寫匯編卻要有接近匯編的性能,就得依賴于一款強(qiáng)大的編譯器,這就是我們做編譯器的目標(biāo)和使命。

從使用者到開發(fā)者

剛來華為的半年比較痛苦,技術(shù)討論的時(shí)候周圍的同事都是資深研發(fā),說起技術(shù)來頭頭是道,我經(jīng)常聽得云里霧里,搞的我每次開會心理壓力都很大。

編譯器這個(gè)東西門檻高,技術(shù)深。為了對這一塊有更深的理解,盡快上手,我記得當(dāng)時(shí)是早上8點(diǎn)上班,我一般提前一小時(shí)7點(diǎn)到工位,結(jié)合實(shí)際的應(yīng)用,帶著問題看代碼,我把編譯器里面一些常用模塊的代碼看了不知道多少遍。

因?yàn)樵谏弦患?a target="_blank">公司近7年嵌入式領(lǐng)域的積累,我對性能(時(shí)延)比較敏感,漸漸地我也發(fā)現(xiàn)了自己擅長從用戶角度出發(fā),提出產(chǎn)品的問題和優(yōu)化點(diǎn)。從此我在華為所做的諸多大事小事,也基本離不開“優(yōu)化”兩字。

很快我就迎來了自己的第一次出差,是去上海。一天主管過來說:“有個(gè)項(xiàng)目提了緊急援助,你們?nèi)スリP(guān)一下”。雖然這活一聽,就比較難搞定,但是對于還沒有轉(zhuǎn)正的我來說是一個(gè)很好的機(jī)會,于是我做好了摩拳擦掌、大顯身手的準(zhǔn)備。在那之前,我只知道華為人為了業(yè)務(wù)是敢打敢拼,還沒有真正見識過,直到我參與了這次項(xiàng)目,第一次感受到為了沖刺交付的那股熱血。我到現(xiàn)在都記得,那段時(shí)間是冬天,很冷,但我在上研所“與世隔絕”,每天早上進(jìn)去,晚上出來,仿佛外面雨雪風(fēng)霜都與我們無關(guān)。

當(dāng)時(shí)正值無線5G技術(shù)的大PK,各大廠商搞得如火如荼。無線同事們攻關(guān)數(shù)月,已經(jīng)取得很大進(jìn)展,但是在基帶業(yè)務(wù)上遇到性能瓶頸,業(yè)務(wù)處理時(shí)延值遠(yuǎn)大于目標(biāo)值。經(jīng)過分析討論,分解給我們編譯器的任務(wù)是優(yōu)化十幾個(gè)算法處理類函數(shù),當(dāng)前指標(biāo)相比預(yù)期,有的甚至差距十幾倍乃至幾十倍。受到周圍熱血攻關(guān)的氣氛的影響,我拿到任務(wù)也是一頭扎進(jìn)去,基于之前多年的經(jīng)驗(yàn)以及前段時(shí)間的苦學(xué),面對第一個(gè)需要優(yōu)化的函數(shù),我從拿手的匯編開始分析,很快便發(fā)現(xiàn)了性能差的主要原因。因?yàn)閷幾g器性能的了解,略微調(diào)整下算法中C語言某一段代碼的寫法,竟然就成功了,函數(shù)性能一下子提升X倍,達(dá)成了預(yù)期目標(biāo)!這個(gè)結(jié)果令我興奮不已,這一定程度驗(yàn)證了我之前努力的成效,更是給了我莫大的鼓勵(lì),讓我對接下來的挑戰(zhàn)充滿信心。

最后經(jīng)過兩周的攻關(guān),我們達(dá)成了全部的目標(biāo),幫助產(chǎn)品解決了當(dāng)前項(xiàng)目中的最大阻塞點(diǎn)。這次給我最深的感悟就是優(yōu)化不是靠“磨”出來的,解決第一個(gè)的時(shí)候還在摸索,到后面慢慢就掌握了一些方法門路,越來越上手了。

數(shù)著cycle過日子的“火鍋小分隊(duì)”

如果說第一次攻關(guān)我們是援軍,那么第二次攻關(guān)我們就是主力軍,而我更是主力軍中的先鋒。

那會兒無線準(zhǔn)備開發(fā)第一代自研矢量核,相比于普通核,芯片支持更寬的矢量計(jì)算,因此在矢量化后可以將運(yùn)算次數(shù)縮減到1/X,讓芯片的性能提升X倍,我們團(tuán)隊(duì)承接了其配套的編譯器開發(fā),把實(shí)現(xiàn)矢量化功能的代碼“翻譯”給芯片。

業(yè)務(wù)對我們的要求非常高,我們第一次出來的版本在業(yè)務(wù)側(cè)驗(yàn)證,性能僅有手寫匯編的30%,距離既定目標(biāo)差的非常遠(yuǎn)。在現(xiàn)場直面產(chǎn)品的我很受打擊。身體僵坐在工位上看著屏幕上的代碼,聽著業(yè)務(wù)側(cè)的同事拍桌子質(zhì)問:“這么大的差距,怎么追?”沒有人能比我當(dāng)時(shí)的心情更著急。接下來,我們和產(chǎn)品矢量核業(yè)務(wù)開發(fā)團(tuán)隊(duì)開展聯(lián)合優(yōu)化,一方面雙方可以一起探索如何寫出高性能的矢量核代碼;另一方面,在探索過程中,我們可以了解業(yè)務(wù)特點(diǎn),發(fā)掘編譯器的待改進(jìn)點(diǎn)。他們做功能,我們優(yōu)化性能,雙管齊下。

各個(gè)模塊里業(yè)務(wù)側(cè)都有自己的期望值,一開始的差距甚至都在2倍3倍以上。經(jīng)過我們和業(yè)務(wù)側(cè)的討論,不久就確定了各個(gè)項(xiàng)目里程碑計(jì)劃表。面對巨大的gap,沒有時(shí)間給我浪費(fèi),而且越到后面優(yōu)化難度越大。

編譯器的性能優(yōu)化目標(biāo)都是參考極致手寫匯編來確定的通常我們用cycle(機(jī)器執(zhí)行指令頻率)數(shù)作為衡量性能的指標(biāo)。Cycle的數(shù)量越少,說明耗時(shí)越短,性能越優(yōu)。在那段時(shí)間里,我的腦子里面全是cycle,今天優(yōu)化了多少cycle,我們距離下一個(gè)里程碑還有多少cycle,在接下來的日子里需要每天保持優(yōu)化多少cycle。夜晚別人是數(shù)著綿羊入睡,我大概是念叨著cycle入睡……雖然偶爾會有些焦慮,但只要我做到今日cycle今日畢,就是在朝著目標(biāo)一步步前進(jìn)!

還記得被cycle支配的漫長異地攻關(guān)期,上研食堂的小火鍋是我們的最愛,又快又方便。一次在距離里程碑期限快要到了的時(shí)候,還有許多cycle沒有優(yōu)化完成。我和另外兩個(gè)同事嘴里吃著丸子,心里默默念叨著自己的cycle。到最后有個(gè)同事越吃越?jīng)]勁,只想趕快回到工位工作,這時(shí)候鍋里還剩了好幾個(gè)丸子。我就拉著他說:“你吃完,別浪費(fèi),你吃一個(gè)丸子我給你減少100個(gè)cycle怎么樣?”他撲哧一下笑出聲。其實(shí),我也明白兄弟們壓力都很大,雖然很艱難,希望大家能有時(shí)間放松一下緊繃的弦……

在持續(xù)攻關(guān)了三個(gè)多月后,我們終于看到了曙光。一方面業(yè)務(wù)側(cè)性能已經(jīng)基本達(dá)到預(yù)期,雙方已聯(lián)合摸索出一套適配當(dāng)前芯片架構(gòu)的代碼寫法,另一方面編譯器引入和增強(qiáng)了許多的算法,各個(gè)模塊都已達(dá)成了90%手寫匯編的既定目標(biāo),在一些典型業(yè)務(wù)上的性能結(jié)果逼近匯編。而我心里的大石頭終于放下了,我想自己再也不用每天數(shù)著cycle過日子了,這場仗,我們打贏了!

項(xiàng)目結(jié)束后,我們幾個(gè)兄弟大快朵頤地吃了頓火鍋,還點(diǎn)了不少小丸子,大家聊起攻關(guān)歲月,都覺得那場景恍如隔日,卻又記憶猶新……

“不能在我這掉鏈子”

這個(gè)項(xiàng)目結(jié)束不久后,我就成為了團(tuán)隊(duì)的SE。對于普通開發(fā)而言,工作偏向于聚焦某一個(gè)問題;而作為SE,團(tuán)隊(duì)的對外技術(shù)發(fā)言人,需要花更多的精力去分析項(xiàng)目中的技術(shù)風(fēng)險(xiǎn),并探索新技術(shù),需要背負(fù)整個(gè)項(xiàng)目的壓力。

由于編譯器在第一代核上的性能達(dá)到了匯編的90%,在之后一代代的芯片演進(jìn)過程中,90%的指標(biāo)自然就成為了業(yè)務(wù)側(cè)對我們編譯器特性的最低要求。然而特性越來越復(fù)雜,技術(shù)難度更像是一道難以跨越的鴻溝,我們的標(biāo)準(zhǔn)卻并沒有降低。

記得在某一代矢量核演進(jìn)過程中引入了一個(gè)新特性,該特性是當(dāng)代芯片架構(gòu)演進(jìn)的主要提升點(diǎn),但是這個(gè)特性在業(yè)界沒有任何先例技術(shù)。開會的時(shí)候,設(shè)計(jì)的同事斬釘截鐵地說著:“做不到90%,就不能達(dá)標(biāo)”。

當(dāng)時(shí)聽到這話的我,瞬間壓力巨大。由于該特性的編譯器實(shí)現(xiàn)沒有業(yè)界可參考經(jīng)驗(yàn),我們就是從零開始,需要完全自研的設(shè)計(jì)開發(fā)。關(guān)于這個(gè)技術(shù)的特點(diǎn),編譯器現(xiàn)有的能力,將來這塊能不能做?能做到什么程度?這些都是我要考慮的風(fēng)險(xiǎn)點(diǎn)。我不敢輕易承諾,但有時(shí)候我又不得不承諾。

在這種承諾下,我只能自己消化。當(dāng)務(wù)之急就是對這個(gè)最大的風(fēng)險(xiǎn)特性做一個(gè)能力評估,時(shí)間緊迫,平時(shí)開發(fā)一個(gè)新特性都要2-3個(gè)月,但那時(shí)的我沒有時(shí)間了。我花了2天時(shí)間通讀了該特性的所有描述,并理解每一個(gè)細(xì)節(jié);同時(shí)還調(diào)研了業(yè)務(wù)場景,梳理哪些場景我們可以支持,哪些將會是風(fēng)險(xiǎn),最后在兩周內(nèi)給出commit(確認(rèn))。

之后,我又花了幾天時(shí)間實(shí)現(xiàn)了一個(gè)demo,進(jìn)一步證實(shí)了我們的基本方案的可行性?;诜桨赋醺?,我們評估可以覆蓋80%的業(yè)務(wù)場景,剩下的20%也可以通過一些定制化擴(kuò)充來進(jìn)一步支持。至此,我們可以commit 90%的目標(biāo),雖然仍有風(fēng)險(xiǎn),但已經(jīng)有了底氣。

那段時(shí)間,我經(jīng)常在會后一個(gè)人默默復(fù)盤,思考著會議上大家提出的問題技術(shù)上是否可以通過外部交流幫助;編譯器到底需要解決哪些問題,才能風(fēng)險(xiǎn)可控,將來又怎么去彌補(bǔ)。畢竟我要對項(xiàng)目負(fù)責(zé),對團(tuán)隊(duì)負(fù)責(zé)。要知道到目前為止,我們團(tuán)隊(duì)可是從來沒有過“敗績”,我們之前沒有一次掉鏈子的,更不能在我這掉鏈子,我做出的承諾就要達(dá)到。當(dāng)然最終我們也是順利達(dá)成了目標(biāo)。

與可信風(fēng)險(xiǎn)說“不”

2018年下半年,公司開始推行軟件工程能力提升項(xiàng)目,很多團(tuán)隊(duì)都大刀闊斧地進(jìn)行了可信改革,我們的編譯器優(yōu)選版本定了5年更新一次的計(jì)劃。

編譯器在CT領(lǐng)域進(jìn)行了近10年的交付,特別是在無線場景,支撐的芯片類型非常多,每種芯片類型編譯器支撐的版本也不盡相同,所以整個(gè)編譯器的“可信”工程是艱巨的,存在可信風(fēng)險(xiǎn),亟需升級。另一方面我們是自研芯片的編譯器,在獲得高性能的同時(shí)還有很多的業(yè)務(wù)協(xié)同優(yōu)化,牽一發(fā)動全身,一旦編譯器發(fā)生變更,涉及協(xié)同優(yōu)化部分的代碼調(diào)整將會是最痛苦的煎熬。此外,自研芯片已經(jīng)演進(jìn)了那么多代,升級后每一代都要重新配套。而我們半年后將迎來客戶交付時(shí)間點(diǎn),要在那之前完成6款自研編譯器的升級,時(shí)間上也將是一個(gè)巨大的風(fēng)險(xiǎn)。

面臨這么多困難當(dāng)前,我們編譯器難道不升級了?

不,作為負(fù)責(zé)無線領(lǐng)域的編譯器SE,我要帶領(lǐng)團(tuán)隊(duì)與時(shí)間賽跑,我們交付的編譯器不僅要高性能,還要高可信。我一直認(rèn)為,作為SE,可信設(shè)計(jì)其實(shí)就是本職工作,并不是今天公司搞可信,我們才撲上去搞,而應(yīng)該是在平時(shí)的設(shè)計(jì)開發(fā)中,就要去考慮的。雖然版本升級時(shí)間緊、任務(wù)重,但我還是給這次任務(wù)增加了額外的難度,既然未來是要繼續(xù)升級,考慮到后續(xù)代碼的可維護(hù)性,索性這次就直接從系統(tǒng)層面做一個(gè)大重構(gòu),一步到位!

說實(shí)話,這么重要又有難度的挑戰(zhàn),我心里也打鼓,畢竟這不僅是編譯器團(tuán)隊(duì)的事,還牽扯著協(xié)同業(yè)務(wù)的優(yōu)化,更重要的是不能影響后續(xù)客戶的交付節(jié)奏和質(zhì)量,我們不容有失。

半年的時(shí)間痛苦又漫長,通過多次攻關(guān)聯(lián)調(diào),經(jīng)過了很多個(gè)重構(gòu),我們終于完成了全部的自研芯片編譯器版本升級。不僅保障了升級后的各個(gè)編譯器在業(yè)務(wù)側(cè)性能沒有下降,消除了芯片應(yīng)用上的可信風(fēng)險(xiǎn);同時(shí)我們在升級過程中,也做了很多的架構(gòu)解耦工作,包括開源與自研代碼解耦,多個(gè)芯片之間的接口抽象等,以利于下次升級。給客戶、也給我們自己交了一份滿意的答卷。如今再回首,我覺得一切都是最值得的,對于可信的風(fēng)險(xiǎn),我們必須迎難而上!

最后,我想說,我們團(tuán)隊(duì)是一支歷史悠久的團(tuán)隊(duì),伴隨著無線自研芯片一路成長,未來軟件優(yōu)化更顯重要,編譯器在其中的重要性不言而喻。SE是團(tuán)隊(duì)的領(lǐng)航者,不僅要保證當(dāng)前項(xiàng)目的成功,還要為團(tuán)隊(duì)的未來發(fā)展找技術(shù)方向。高性能、高可信不僅僅只是口號,而是需要我們?nèi)コ掷m(xù)打造。

來源:華為人

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    456

    文章

    50936

    瀏覽量

    424661
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    34476

    瀏覽量

    252106
  • 軟件
    +關(guān)注

    關(guān)注

    69

    文章

    4968

    瀏覽量

    87699
  • 編譯
    +關(guān)注

    關(guān)注

    0

    文章

    659

    瀏覽量

    32903
收藏 人收藏

    評論

    相關(guān)推薦

    Triton編譯器與GPU編程的結(jié)合應(yīng)用

    Triton編譯器簡介 Triton編譯器是一種針對并行計(jì)算優(yōu)化的編譯器,它能夠自動將高級語言代碼轉(zhuǎn)換為針對特定硬件優(yōu)化的低級代碼。Triton編譯器的核心優(yōu)勢在于其能夠識別并行模式,
    的頭像 發(fā)表于 12-25 09:13 ?246次閱讀

    Triton編譯器如何提升編程效率

    在現(xiàn)代軟件開發(fā)中,編譯器扮演著至關(guān)重要的角色。它們不僅將高級語言代碼轉(zhuǎn)換為機(jī)器可執(zhí)行的代碼,還通過各種優(yōu)化技術(shù)提升程序的性能。Triton 編譯器作為一種先進(jìn)的編譯器,通過多種方式提升編程效率,使得
    的頭像 發(fā)表于 12-25 09:12 ?239次閱讀

    Triton編譯器在高性能計(jì)算中的應(yīng)用

    高性能計(jì)算(High-Performance Computing,HPC)是現(xiàn)代科學(xué)研究和工程計(jì)算中不可或缺的一部分。隨著計(jì)算需求的不斷增長,對計(jì)算資源的要求也越來越高。Triton編譯器作為一種
    的頭像 發(fā)表于 12-25 09:11 ?258次閱讀

    Triton編譯器的優(yōu)化技巧

    在現(xiàn)代計(jì)算環(huán)境中,編譯器的性能對于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯器作為一個(gè)先進(jìn)的編譯器框架,提供了一系列的優(yōu)化技術(shù),以確保生成的代碼既高效又適應(yīng)不同的硬件架構(gòu)。 1. 指令選擇
    的頭像 發(fā)表于 12-25 09:09 ?237次閱讀

    Triton編譯器的優(yōu)勢與劣勢分析

    Triton編譯器作為一種新興的深度學(xué)習(xí)編譯器,具有一系列顯著的優(yōu)勢,同時(shí)也存在一些潛在的劣勢。以下是對Triton編譯器優(yōu)勢與劣勢的分析: 優(yōu)勢 高效性能優(yōu)化 : Triton編譯器
    的頭像 發(fā)表于 12-25 09:07 ?273次閱讀

    Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務(wù)平臺的一部分,它負(fù)責(zé)將深度學(xué)習(xí)模型轉(zhuǎn)換為優(yōu)化的格式,以便在NVIDIA GPU上高效運(yùn)行。Triton編譯器支持
    的頭像 發(fā)表于 12-24 18:13 ?404次閱讀

    Triton編譯器支持的編程語言

    Triton編譯器支持的編程語言主要包括以下幾種: 一、主要編程語言 Python :Triton編譯器通過Python接口提供了對Triton語言和編譯器的訪問,使得用戶可以在Python環(huán)境中
    的頭像 發(fā)表于 12-24 17:33 ?375次閱讀

    Triton編譯器與其他編譯器的比較

    Triton編譯器與其他編譯器的比較主要體現(xiàn)在以下幾個(gè)方面: 一、定位與目標(biāo) Triton編譯器 : 定位:專注于深度學(xué)習(xí)中最核心、最耗時(shí)的張量運(yùn)算的優(yōu)化。 目標(biāo):提供一個(gè)高度抽象、靈活、高效
    的頭像 發(fā)表于 12-24 17:25 ?386次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開源的編譯器前端,它支持多種編程語言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯器框架,允許開發(fā)者添加新的編程語言特性和優(yōu)化技術(shù)
    的頭像 發(fā)表于 12-24 17:23 ?449次閱讀

    C7000優(yōu)化C/C++編譯器

    電子發(fā)燒友網(wǎng)站提供《C7000優(yōu)化C/C++編譯器.pdf》資料免費(fèi)下載
    發(fā)表于 10-30 09:45 ?0次下載
    C7000優(yōu)化C/C++<b class='flag-5'>編譯器</b>

    Keil編譯器優(yōu)化方法

    我們都知道,代碼是可以通過編譯器優(yōu)化的,有的時(shí)候,為了提高運(yùn)行速度或者減少代碼尺寸,會開啟優(yōu)化選項(xiàng)。
    的頭像 發(fā)表于 10-23 16:35 ?648次閱讀
    Keil<b class='flag-5'>編譯器</b>優(yōu)化方法

    AI編譯器技術(shù)剖析

    隨著人工智能技術(shù)的飛速發(fā)展,AI編譯器作為一種新興的編譯技術(shù)逐漸進(jìn)入人們的視野。AI編譯器不僅具備傳統(tǒng)編譯器的功能,如將高級語言編寫的源代碼轉(zhuǎn)換為機(jī)器可執(zhí)行的代碼,還融入了人工智能技術(shù)
    的頭像 發(fā)表于 07-17 18:28 ?1664次閱讀

    人工智能編譯器與傳統(tǒng)編譯器的區(qū)別

    人工智能編譯器(AI編譯器)與傳統(tǒng)編譯器在多個(gè)方面存在顯著的差異。這些差異主要體現(xiàn)在設(shè)計(jì)目標(biāo)、功能特性、優(yōu)化策略、適用范圍以及技術(shù)復(fù)雜性等方面。以下是對兩者區(qū)別的詳細(xì)探討,旨在全面解析其內(nèi)在差異。
    的頭像 發(fā)表于 07-17 18:19 ?1957次閱讀

    Meta發(fā)布基于Code Llama的LLM編譯器

    近日,科技巨頭Meta在其X平臺上正式宣布推出了一款革命性的LLM編譯器,這一模型家族基于Meta Code Llama構(gòu)建,并融合了先進(jìn)的代碼優(yōu)化和編譯器功能。LLM編譯器的推出,標(biāo)志著Meta在人工智能領(lǐng)域的又一重大突破,將
    的頭像 發(fā)表于 06-29 17:54 ?1520次閱讀

    QT開發(fā)學(xué)習(xí)筆記1(安裝交叉編譯器

    QT安裝交叉編譯器
    的頭像 發(fā)表于 02-18 10:02 ?1067次閱讀
    QT開發(fā)學(xué)習(xí)筆記1(安裝交叉<b class='flag-5'>編譯器</b>)