電子發(fā)燒友網報道(文/周凱揚)10年前谷歌作為互聯(lián)網巨頭,就已經嗅到了機器學習的潛力,尤其是在深度神經網絡(DNN)模型上。就拿語音識別這樣的功能來說,如果要考慮到1億安卓用戶每天和手機對話三分鐘這樣的高并發(fā)情況,單單只靠CPU的話,他們需要將現(xiàn)有數(shù)據(jù)中心的規(guī)模擴大至兩倍,才能滿足DNN推理的要求。
TPU / 谷歌
但擴建數(shù)據(jù)中心是一個投入極高的工作,于是他們考慮用定制的特定域架構的硬件來減少完成推理任務的總擁有成本,而且又要能運行已經為CPU和GPU開發(fā)的應用。谷歌在2014年開啟了TPUv1的項目,15個月后,全新的TPU硬件就已經應用到了谷歌的數(shù)據(jù)中心里,連帶架構、編譯器、測試和部署都全部更新了一遍。
那時GPU在推理這塊的性能也還是超過CPU的,但TPU的出現(xiàn)改變了這個格局。與當時英特爾的Haswell CPU相比,TPUv1的能耗比有了80倍的提升,相較當時的英偉達Tesla K80 GPU,其能耗比也高達它的30倍。
每代TPU的性能指標 / 谷歌
谷歌此舉引爆了整個市場,大家發(fā)現(xiàn)了還有除了CPU、GPU之外的方案。英特爾察覺后也收購了一系列深度學習DSA芯片公司,比如Nervana、Movidius、Mobileye和Habana。谷歌在云服務上的競爭對手們,阿里巴巴和亞馬遜也開始打造自己的推理、訓練芯片。能耗比之戰(zhàn)下,大家很快也意識到機器學習帶來的碳足跡成了下一個急需解決的問題。
碳足跡的反噬
根據(jù)去年在IEEE Spectrum上發(fā)布的《深度學習受益遞減》一文中提到,隨著機器學習的發(fā)展,到了2025年,最強的深度學習系統(tǒng)在ImageNet數(shù)據(jù)集中進行物體識別時,錯誤率最高只有5%。但訓練這樣一個系統(tǒng)所需要的算力和能耗都是龐大的,更糟糕的是,其排放的二氧化碳將是紐約市一整個月的排放量。
機器學習的碳排放可以被分為兩種,一種是運營排放,也就是數(shù)據(jù)中心在運行機器學習硬件中產生的碳排放;第二種是整個生命周期內的排放,不僅包含運營排放,還包含了各個環(huán)節(jié)的碳排放,比如芯片制造、數(shù)據(jù)中心建造等等。考慮到后者涉及更加復雜的研究,所以大部分碳足跡的研究都集中在運營排放上。
至于如何記錄碳排放,這也很簡單,只需要將訓練/推理的時長x處理器數(shù)量x每個處理器的平均功耗x PUE x 每千瓦時的二氧化碳排放即可。除了最后一項參數(shù)需要從數(shù)據(jù)中心那獲取外,其他的數(shù)據(jù)基本都是公開,或取決于機器學習研究者自己的選擇。
如何減少機器學習的碳足跡
圖靈獎得主、谷歌杰出工程師David Patterson教授對現(xiàn)有的機器學習的研究和工作提出了以下幾點建議。首先,從模型開始著手,機器學習研究者需要繼續(xù)開發(fā)效率更高的模型,比如谷歌去年發(fā)布的GLaM通用稀疏語言模型,相較GPT-3,它多出了7倍的參數(shù),在自然語言推理等任務上都要優(yōu)于GPT-3。但同樣重要的是它的能耗和碳足跡指標,根據(jù)谷歌公布的數(shù)據(jù),與使用V100的GPT-3相比,使用TPUv4的GLaM二氧化碳排放減少了14倍,可見模型對于碳足跡的影響。其次,在發(fā)布新模型的時候,他建議也把能耗和碳足跡這樣的數(shù)據(jù)公開,這樣有助于促進機器學習模型在質量上的良性競爭。
接著是硬件,他指出我們需要像TPUv4或者A100 GPU等,這類機器學習能效比更高的硬件。其實這一點反倒是最不需要擔心的,這幾乎是每個初創(chuàng)AI芯片公司都在嘗試的做法,即便在峰值上不敵這些硬件,也絕對會在能效比上盡可能做大極致。
全球大規(guī)模數(shù)據(jù)中心的平均PUE / Uptime Institute
還有就是常見的能效衡量指標PUE,大型機器學習負載往往要在數(shù)據(jù)中心上運行,而要讓數(shù)據(jù)中心的PUE接近1并不是一件簡單的事。根據(jù)Uptime Institute的統(tǒng)計,各家廠商旗下最大數(shù)據(jù)中心的年度PUE為1.57,就連我國工信部印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023)》中提出的最終目標也只是將新建大型數(shù)據(jù)中心PUE降低至1.3以下。但好在新建的數(shù)據(jù)中心往往都不會只滿足于這個目標,而是往1.1乃至1.06這樣的指標推進。
可這個指標并不是一個死數(shù)據(jù),隨著負載和用量的變動,PUE是在持續(xù)波動的,不少數(shù)據(jù)中心僅僅在建成時發(fā)布了能效指標,之后就再未公布過任何數(shù)據(jù)了。在這塊做得最好的也還是谷歌,谷歌每年都會發(fā)布年度能效報告,將各個數(shù)據(jù)中心每個季度的PUE公布出來。
不過僅僅只有極低的PUE只能體現(xiàn)出高能耗比,David Patterson教授認為還必須一并公布每個地區(qū)數(shù)據(jù)中心的清潔能源占比。比如阿里巴巴首次發(fā)布的《2022阿里巴巴環(huán)境、社會和治理報告》中就提到了2021年,阿里巴巴在中國企業(yè)可再生能源購買者中排名第一,2022財年阿里云21.6%的電力來自清潔能源。
在雙碳目標的提出下,我國其實已經落實到了機器學習的硬件上,但在軟件和碳足跡透明度這方面還有可以改善的空間。機器學習要想做到消耗更低的算力來實現(xiàn)更優(yōu)的效果,就必須從各個環(huán)節(jié)做到節(jié)能減排。
TPU / 谷歌
但擴建數(shù)據(jù)中心是一個投入極高的工作,于是他們考慮用定制的特定域架構的硬件來減少完成推理任務的總擁有成本,而且又要能運行已經為CPU和GPU開發(fā)的應用。谷歌在2014年開啟了TPUv1的項目,15個月后,全新的TPU硬件就已經應用到了谷歌的數(shù)據(jù)中心里,連帶架構、編譯器、測試和部署都全部更新了一遍。
那時GPU在推理這塊的性能也還是超過CPU的,但TPU的出現(xiàn)改變了這個格局。與當時英特爾的Haswell CPU相比,TPUv1的能耗比有了80倍的提升,相較當時的英偉達Tesla K80 GPU,其能耗比也高達它的30倍。
每代TPU的性能指標 / 谷歌
谷歌此舉引爆了整個市場,大家發(fā)現(xiàn)了還有除了CPU、GPU之外的方案。英特爾察覺后也收購了一系列深度學習DSA芯片公司,比如Nervana、Movidius、Mobileye和Habana。谷歌在云服務上的競爭對手們,阿里巴巴和亞馬遜也開始打造自己的推理、訓練芯片。能耗比之戰(zhàn)下,大家很快也意識到機器學習帶來的碳足跡成了下一個急需解決的問題。
碳足跡的反噬
根據(jù)去年在IEEE Spectrum上發(fā)布的《深度學習受益遞減》一文中提到,隨著機器學習的發(fā)展,到了2025年,最強的深度學習系統(tǒng)在ImageNet數(shù)據(jù)集中進行物體識別時,錯誤率最高只有5%。但訓練這樣一個系統(tǒng)所需要的算力和能耗都是龐大的,更糟糕的是,其排放的二氧化碳將是紐約市一整個月的排放量。
機器學習的碳排放可以被分為兩種,一種是運營排放,也就是數(shù)據(jù)中心在運行機器學習硬件中產生的碳排放;第二種是整個生命周期內的排放,不僅包含運營排放,還包含了各個環(huán)節(jié)的碳排放,比如芯片制造、數(shù)據(jù)中心建造等等。考慮到后者涉及更加復雜的研究,所以大部分碳足跡的研究都集中在運營排放上。
至于如何記錄碳排放,這也很簡單,只需要將訓練/推理的時長x處理器數(shù)量x每個處理器的平均功耗x PUE x 每千瓦時的二氧化碳排放即可。除了最后一項參數(shù)需要從數(shù)據(jù)中心那獲取外,其他的數(shù)據(jù)基本都是公開,或取決于機器學習研究者自己的選擇。
如何減少機器學習的碳足跡
圖靈獎得主、谷歌杰出工程師David Patterson教授對現(xiàn)有的機器學習的研究和工作提出了以下幾點建議。首先,從模型開始著手,機器學習研究者需要繼續(xù)開發(fā)效率更高的模型,比如谷歌去年發(fā)布的GLaM通用稀疏語言模型,相較GPT-3,它多出了7倍的參數(shù),在自然語言推理等任務上都要優(yōu)于GPT-3。但同樣重要的是它的能耗和碳足跡指標,根據(jù)谷歌公布的數(shù)據(jù),與使用V100的GPT-3相比,使用TPUv4的GLaM二氧化碳排放減少了14倍,可見模型對于碳足跡的影響。其次,在發(fā)布新模型的時候,他建議也把能耗和碳足跡這樣的數(shù)據(jù)公開,這樣有助于促進機器學習模型在質量上的良性競爭。
接著是硬件,他指出我們需要像TPUv4或者A100 GPU等,這類機器學習能效比更高的硬件。其實這一點反倒是最不需要擔心的,這幾乎是每個初創(chuàng)AI芯片公司都在嘗試的做法,即便在峰值上不敵這些硬件,也絕對會在能效比上盡可能做大極致。
全球大規(guī)模數(shù)據(jù)中心的平均PUE / Uptime Institute
還有就是常見的能效衡量指標PUE,大型機器學習負載往往要在數(shù)據(jù)中心上運行,而要讓數(shù)據(jù)中心的PUE接近1并不是一件簡單的事。根據(jù)Uptime Institute的統(tǒng)計,各家廠商旗下最大數(shù)據(jù)中心的年度PUE為1.57,就連我國工信部印發(fā)的《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023)》中提出的最終目標也只是將新建大型數(shù)據(jù)中心PUE降低至1.3以下。但好在新建的數(shù)據(jù)中心往往都不會只滿足于這個目標,而是往1.1乃至1.06這樣的指標推進。
可這個指標并不是一個死數(shù)據(jù),隨著負載和用量的變動,PUE是在持續(xù)波動的,不少數(shù)據(jù)中心僅僅在建成時發(fā)布了能效指標,之后就再未公布過任何數(shù)據(jù)了。在這塊做得最好的也還是谷歌,谷歌每年都會發(fā)布年度能效報告,將各個數(shù)據(jù)中心每個季度的PUE公布出來。
不過僅僅只有極低的PUE只能體現(xiàn)出高能耗比,David Patterson教授認為還必須一并公布每個地區(qū)數(shù)據(jù)中心的清潔能源占比。比如阿里巴巴首次發(fā)布的《2022阿里巴巴環(huán)境、社會和治理報告》中就提到了2021年,阿里巴巴在中國企業(yè)可再生能源購買者中排名第一,2022財年阿里云21.6%的電力來自清潔能源。
在雙碳目標的提出下,我國其實已經落實到了機器學習的硬件上,但在軟件和碳足跡透明度這方面還有可以改善的空間。機器學習要想做到消耗更低的算力來實現(xiàn)更優(yōu)的效果,就必須從各個環(huán)節(jié)做到節(jié)能減排。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
機器學習
+關注
關注
66文章
8438瀏覽量
132993
發(fā)布評論請先 登錄
相關推薦
安科瑞能耗在線監(jiān)測系統(tǒng)助力雙碳應用
摘要:能耗在線監(jiān)測系統(tǒng)作為“雙碳”目標重要的手段,本文在總結福建省重點用能單位能耗在線監(jiān)測 系統(tǒng)應用成效的基礎上,研究分析目前存在的問題,提出雙碳
在"雙碳"目標下,如何實現(xiàn)工廠的數(shù)字化改造升級
在"雙碳"目標下,如何實現(xiàn)工廠的數(shù)字化改造升級 在“雙碳”目標,即2030年前實現(xiàn)
能耗雙控,碳達峰下的能源管理平臺
碳達峰是指二氧化碳的排放達到峰值后不再增加,而能耗雙控則是指對能源消耗總量和強度的雙重控制。在這一背景下,能源管理的目標是實現(xiàn)能源的高效利用和可持續(xù)發(fā)展,推動經濟社會全面綠色低碳轉型
京信通信通過科學碳目標組織(SBTi)認證
京信通信減排目標通過全球科學碳目標組織(SBTi)認證,是京信通信綠色可持續(xù)發(fā)展征程的重要里程碑,彰顯公司應對氣候變化的雄心,標志著京信通信在綠色低碳領域的競爭力和責任感,以及公司的綠
光感慧智精彩亮相第25屆中國環(huán)博會,助力“雙碳”目標
光感慧智將始終堅持科技自主創(chuàng)新,持續(xù)夯實產品質量基礎,為國家“雙碳”領域中碳排放的測量、節(jié)能減排等事業(yè)提供先進的氣體傳感技術支撐。
基于“雙 碳 ”目標的綜合用電服務管理系統(tǒng)介紹
各類廠礦與企事企業(yè)單位,基于雙碳目標的綜合智慧用電管理系統(tǒng)解決方案。
發(fā)表于 04-08 16:29
?1次下載
5G基站能效管理助力雙碳目標
1.中國基站現(xiàn)狀和趨勢 近年,國內三大通信運營商紛紛公布了“雙碳”目標: 中國移動提出,2025年在總量增加1.6倍的情況下,碳排放總量控制在5600萬噸以內; 中國電信提出,在“十四
“上海市2023年度碳排放配額分配方案”實踐
摘要:碳資產已成為繼貨幣資產、實物資產、無形資產、數(shù)據(jù)資產之后的第五類新型資產。碳資產管理在落實“雙碳”戰(zhàn)略目標過程中發(fā)揮重要作用。統(tǒng)籌謀劃
企業(yè)微電網能效管理平臺助力企業(yè)能耗雙控減排降碳
綠色低碳發(fā)展是經濟社會發(fā)展全面轉型的復雜工程和長期任務。實現(xiàn)碳達峰碳中和目標要堅定不移,但不可能畢其功于一役,要堅持穩(wěn)中求進,逐步實現(xiàn)。要堅持全國統(tǒng)籌、節(jié)約優(yōu)先、雙輪驅動、內外暢通、防
AcrelEMS能效管理平臺全面用電管理助力雙碳目標
電子發(fā)燒友網站提供《AcrelEMS能效管理平臺全面用電管理助力雙碳目標.pdf》資料免費下載
發(fā)表于 02-02 09:14
?0次下載
評論