0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI 創(chuàng)新的阻礙是對(duì)現(xiàn)有計(jì)算利用不足和成本增加

如意 ? 來源:讀芯術(shù)微信公眾號(hào) ? 作者:讀芯術(shù)微信公眾號(hào) ? 2020-11-02 15:02 ? 次閱讀

雖然人工智能融合到商業(yè)具有很高的商業(yè)價(jià)值,但通常這個(gè)價(jià)值還不能抵消把模型應(yīng)用到商業(yè)中所需的計(jì)算成本。機(jī)器學(xué)習(xí)深度學(xué)習(xí)是計(jì)算密集型的學(xué)習(xí),有人認(rèn)為,除非云計(jì)算或本地計(jì)算成本降低,否則盡管具有空前的商業(yè)價(jià)值,也不值得付出這筆成本。

麻省理工學(xué)院的研究科學(xué)家兼《深度學(xué)習(xí)的計(jì)算極限》一書的作者尼爾·湯普森(Neil Thompson)在《連線》雜志上發(fā)表的文章中提到,Google、Facebook等眾多組織已經(jīng)建立了影響力廣又能節(jié)約成本的模型,但由于計(jì)算成本高而導(dǎo)致這些模型無法盈利。

湯普森表示在最近的一些演講和論文中表示,從事大型和前沿人工智能項(xiàng)目的研究人員開始抱怨,因?yàn)槌杀咎?,他們無法測(cè)試多個(gè)算法設(shè)計(jì),或者重新進(jìn)行實(shí)驗(yàn)。

商業(yè)機(jī)構(gòu)需要極大地完善計(jì)算效率的方法,以促進(jìn)創(chuàng)新并提高人工智能工作的投資回報(bào)率。但是,高昂的計(jì)算成本以及人們對(duì)高效計(jì)算的關(guān)注并不應(yīng)該就此背黑鍋。

實(shí)際上,GPU加速基礎(chǔ)架構(gòu)和其他云供應(yīng)商已經(jīng)取得了重大的進(jìn)步,極大提高了訓(xùn)練復(fù)雜人工智能網(wǎng)絡(luò)的能力,這種速度是前所未有的。

2020年5月,DeepCube發(fā)布了基于軟件的推理加速器,大大提高了所有現(xiàn)有硬件上的深度學(xué)習(xí)性能。換句話說,人們正在開發(fā)計(jì)算解決方案以滿足機(jī)器學(xué)習(xí)和深度學(xué)習(xí)日益增長(zhǎng)的需求。人工智能創(chuàng)新潛在的阻礙就是對(duì)現(xiàn)有計(jì)算利用不足,以及“計(jì)算債務(wù)”的成本不斷增加。

什么是“計(jì)算債務(wù)”?

人工智能的領(lǐng)頭羊或許會(huì)驚訝地發(fā)現(xiàn),阻礙機(jī)器學(xué)習(xí)投資回報(bào)的主要因素之一是GPU,CPU和內(nèi)存資源利用不足。

公司在計(jì)算上投資了數(shù)百萬美元,這些計(jì)算有可能極大地加速人工智能工作的負(fù)載量并提高性能,但最終只利用其中的一小部分,有時(shí)只利用了20%的資源。計(jì)算分配和實(shí)際利用率之間的差距令人震驚,可能需要公司付出比想象中更高的成本。

計(jì)算、分配和利用率之間的差距可稱為“計(jì)算債務(wù)”。指的是分配和能力之間的“浪費(fèi)”。下圖直觀地對(duì)比了綠色所代表的平均利用率和黃色所代表的(當(dāng)時(shí)的)分配。

當(dāng)工作負(fù)載正在運(yùn)行時(shí),通常僅利用GPU的一部分,而另一部分則被其他潛在的工作負(fù)載所阻擋?;疑珔^(qū)域表示容量即GPU,CPU或內(nèi)存可用的現(xiàn)有計(jì)算量,是所有閑置且未充分利用的計(jì)算區(qū)域。

資料來源:cnvrg.io

是什么導(dǎo)致了“計(jì)算債務(wù)”?

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是計(jì)算密集型的學(xué)習(xí),管理起來很復(fù)雜,降低這種計(jì)算負(fù)擔(dān)會(huì)更難。人工智能基礎(chǔ)設(shè)施團(tuán)隊(duì)面臨的最大挑戰(zhàn)之一是知道如何提高利用率,并以最大化消耗的方式管理資源,提高機(jī)器學(xué)習(xí)項(xiàng)目的投資回報(bào)率。導(dǎo)致“計(jì)算債務(wù)”的主要原因包括:

(1) 基礎(chǔ)設(shè)施團(tuán)隊(duì)缺乏人工智能項(xiàng)目可見性

機(jī)器學(xué)習(xí)項(xiàng)目的基礎(chǔ)設(shè)施成本每年以兩倍的速度增長(zhǎng),但是IT團(tuán)隊(duì)卻缺乏正確管理、優(yōu)化和預(yù)算機(jī)器學(xué)習(xí)資源的工具。大多數(shù)IT/DevOps領(lǐng)導(dǎo)者無法在給定時(shí)間了解GPU/CPU和內(nèi)存的利用率、分配和容量。這導(dǎo)致無法控制消耗,無法提高效率。

(2) “計(jì)算債務(wù)”增長(zhǎng)

隨著人工智能計(jì)算需求變得越來越復(fù)雜,計(jì)算分配和實(shí)際利用率之間的差距也越來越大。通常來說,公司可能只消耗了全部資源的30%。這導(dǎo)致將近70%的計(jì)算資源閑置,浪費(fèi)了公司幾千甚至數(shù)百萬美元。

(3) 無法識(shí)別效率低下的工作

基礎(chǔ)架構(gòu)團(tuán)隊(duì)無法輕松識(shí)別未充分利用GPU/CPU的工作負(fù)載。如果沒有收集有關(guān)歷史工作負(fù)載的數(shù)據(jù),就無法分析和識(shí)別運(yùn)行效率低下的工作負(fù)載。缺乏可見性導(dǎo)致難以提高利用率,也難以控制工作負(fù)載的優(yōu)先級(jí)。

(4) 生產(chǎn)力中斷

未充分利用的GPU被打斷為其他工作讓路,增加了數(shù)據(jù)科學(xué)家的等待時(shí)間。這導(dǎo)致在等待GPU上浪費(fèi)了很多時(shí)間和資源。同時(shí)還包括資源處于閑置狀態(tài)的問題,這些資源本來可以用于做其他工作的。

(5) 缺乏標(biāo)準(zhǔn)化和統(tǒng)一性

團(tuán)隊(duì)經(jīng)常無法將一項(xiàng)工作與利用率指標(biāo)關(guān)聯(lián)起來。沒有標(biāo)準(zhǔn)的可視化工具來查看特定時(shí)間點(diǎn)的工作分配、利用率和容量。這使得識(shí)別效率低下的工作變得十分困難,而且難以確定浪費(fèi)的工作量。機(jī)器學(xué)習(xí)已經(jīng)達(dá)到了成熟的階段,為了成長(zhǎng),必須對(duì)人工智能基礎(chǔ)架構(gòu)進(jìn)行戰(zhàn)略化發(fā)展。

(6) 無法控制優(yōu)化策略

有些團(tuán)隊(duì)能識(shí)別低效率并計(jì)劃好優(yōu)化的基礎(chǔ)架構(gòu)策略,卻缺乏執(zhí)行這些策略上的工具。IT / DevOps團(tuán)隊(duì)需要控制人工智能工作負(fù)載,以優(yōu)化資源管理。如果沒有辦法確定工作的優(yōu)先級(jí)、配置計(jì)算模板以及監(jiān)視工作負(fù)載的分配和利用率,就無法做出重大改進(jìn)。

減少“計(jì)算債務(wù)”的策略

這一問題沒有明確的解決方法,但是有一些方法可以提高資源管理的效率。

(1) 投資最先進(jìn)的具有GPU加速技術(shù)的人工智能基礎(chǔ)設(shè)施

GPU加速技術(shù)已經(jīng)取得了一些成就。硬件和軟件深度學(xué)習(xí)加速解決方案已經(jīng)出現(xiàn),可提供前所未有的計(jì)算性能。研究最新的GPU加速解決方案,采用真正的現(xiàn)代人工智能基礎(chǔ)架構(gòu)。

(2) 采用混合的云基礎(chǔ)架構(gòu)

結(jié)合公共云、私有云和本地資源可在運(yùn)行人工智能工作負(fù)載方面更加敏捷和靈活。由于人工智能工作負(fù)載之間的負(fù)載類型差異很大,因此公司搭建了混合云基礎(chǔ)架構(gòu)后,能夠更靈活地分配資源和自定義大小??梢允褂霉苍平档唾Y本支出,并提供高計(jì)算需求期間所需的可伸縮性。

如果一些公司有著嚴(yán)格的安全性要求,則必須添加私有云,隨著時(shí)間的推移可降低運(yùn)營(yíng)支出?;旌显瓶蓪?shí)現(xiàn)必要的控制和靈活性,以改善資源預(yù)算。

(3) 利用估算工具估算GPU / CPU內(nèi)存消耗

根據(jù)Microsoft Research對(duì)Microsoft的4960個(gè)失敗的深度學(xué)習(xí)任務(wù)的研究,8.8%的失敗是由GPU內(nèi)存耗盡導(dǎo)致的,這是所有深度學(xué)習(xí)故障中最主要的問題。當(dāng)前已經(jīng)開發(fā)出許多估算工具用以預(yù)估GPU內(nèi)存消耗以減少這些故障。此外,如果能夠收集利用率數(shù)據(jù),則可以使用此歷史數(shù)據(jù)更好地預(yù)測(cè)每個(gè)季度的GPU / CPU和內(nèi)存需求。

(4) 規(guī)?;疢LOps

引入可以簡(jiǎn)化機(jī)器學(xué)習(xí)工作流程,并標(biāo)準(zhǔn)化科學(xué)和工程角色之間轉(zhuǎn)換的方法。由于IT和DevOps負(fù)責(zé)部署和管理工作負(fù)載,因此在執(zhí)行不同的工作時(shí)擁有清晰的溝通渠道非常重要。適當(dāng)?shù)恼{(diào)度工具和對(duì)資源模板進(jìn)行策略化可以改善人工智能工作負(fù)載的資源管理。

(5) 最大限度地提高利用率,減少“計(jì)算債務(wù)”

為了提高利用率,有必要將計(jì)算債務(wù)作為基礎(chǔ)架構(gòu)團(tuán)隊(duì)和數(shù)據(jù)科學(xué)團(tuán)隊(duì)的KPI。如果公司能減少計(jì)算債務(wù)并提高利用率,就可以在向人工智能的競(jìng)爭(zhēng)中脫穎而出。

要想讓基礎(chǔ)架構(gòu)團(tuán)隊(duì)最大限度地提高GPU/CPU的可見性和內(nèi)存消耗從而提高利用率,基本上是沒有萬全之策。盡管業(yè)界正在迅速構(gòu)建更高效的硬件和軟件來解決計(jì)算債務(wù)的威脅,但仍然任重而道遠(yuǎn)。很多公司花費(fèi)了幾百萬美元在計(jì)算上,而這些計(jì)算并未被充分利用。

通過使用現(xiàn)有資源并完善資源管理,公司可以使人工智能基礎(chǔ)架構(gòu)具有巨大的可擴(kuò)展性。根據(jù)文章中的策略,你可以完全利用好計(jì)算資源。公司若專注于優(yōu)化基礎(chǔ)架構(gòu),將會(huì)看到辛苦付出得到更高的投資回報(bào)率,從而在競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算
    +關(guān)注

    關(guān)注

    2

    文章

    450

    瀏覽量

    38832
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31021

    瀏覽量

    269360
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47371

    瀏覽量

    238852
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132744
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    深度評(píng)測(cè):云計(jì)算平臺(tái)的優(yōu)勢(shì)和不足

    計(jì)算平臺(tái)具有成本效益、靈活性和可擴(kuò)展性、簡(jiǎn)化維護(hù)和升級(jí)、全球訪問性以及災(zāi)難恢復(fù)等優(yōu)勢(shì),但也面臨安全性問題、依賴性問題、合規(guī)性和隱私問題、性能限制以及遷移復(fù)雜性等挑戰(zhàn)。企業(yè)在采用云計(jì)算之前需要仔細(xì)權(quán)衡這些優(yōu)勢(shì)和
    的頭像 發(fā)表于 11-22 10:48 ?183次閱讀

    PCB層數(shù)增加對(duì)成本有哪些影響

    PCB層數(shù)增加成本影響 層數(shù)與成本的關(guān)系 :通常情況下,PCB的層數(shù)越多,其價(jià)格也越貴。這是因?yàn)閷訑?shù)的增加會(huì)導(dǎo)致生產(chǎn)步驟(如層壓過程)的數(shù)量增加
    的頭像 發(fā)表于 11-07 09:12 ?329次閱讀

    阻礙計(jì)算采用5種原因

    盡管云計(jì)算在企業(yè)和普通用戶未來的計(jì)算需求里占據(jù)重要位置,但云計(jì)算存在的一切缺點(diǎn)和瑕疵還是在阻礙著企業(yè)和組織采用云計(jì)算。在云服務(wù)交付中扮演重要
    的頭像 發(fā)表于 10-23 10:57 ?179次閱讀

    中國(guó)AI企業(yè)創(chuàng)新降低成本打造競(jìng)爭(zhēng)力模型

    在中國(guó),面對(duì)美國(guó)實(shí)施的芯片限制以及相較于西方企業(yè)更為有限的預(yù)算,人工智能(AI)公司正積極尋求降低成本的方法,以開發(fā)出具有市場(chǎng)競(jìng)爭(zhēng)力的模型。初創(chuàng)公司如01.ai(零一萬物)和DeepSeek(深度求索)等,通過聚焦小數(shù)據(jù)集進(jìn)行
    的頭像 發(fā)表于 10-22 14:56 ?450次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    幸得一好書,特此來分享。感謝平臺(tái),感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源科學(xué)領(lǐng)域中的巨大潛力和廣泛應(yīng)用。這一章詳細(xì)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    非常高興本周末收到一本新書,也非常感謝平臺(tái)提供閱讀機(jī)會(huì)。 這是一本挺好的書,包裝精美,內(nèi)容詳實(shí),干活滿滿。 關(guān)于《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,還促進(jìn)了新理論、新技術(shù)的誕生。 3. 挑戰(zhàn)與機(jī)遇并存 盡管人工智能為科學(xué)創(chuàng)新帶來了巨大潛力,但第一章也誠(chéng)實(shí)地討論了伴隨而來的挑戰(zhàn)。數(shù)據(jù)隱私、算法偏見、倫理道德等問題不容忽視。如何在利用AI提升科研效率
    發(fā)表于 10-14 09:12

    利用AI構(gòu)建實(shí)用量子計(jì)算應(yīng)用

    在實(shí)踐中構(gòu)建實(shí)用量子計(jì)算機(jī)的難度極高,這需要大幅提高量子計(jì)算機(jī)的規(guī)模、保真度、速度、可靠性和可編程性,才能充分發(fā)揮其優(yōu)勢(shì)。另外,還需要功能強(qiáng)大的工具以解決許多阻礙實(shí)現(xiàn)實(shí)用量子計(jì)算的復(fù)雜
    的頭像 發(fā)表于 09-09 10:24 ?367次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>AI</b>構(gòu)建實(shí)用量子<b class='flag-5'>計(jì)算</b>應(yīng)用

    NVIDIA在加速計(jì)算和生成式AI領(lǐng)域的創(chuàng)新

    在最新發(fā)布的公司 2024 財(cái)年可持續(xù)發(fā)展報(bào)告開篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA 在加速計(jì)算和生成式 AI 領(lǐng)域的創(chuàng)新,以及 AI 技術(shù)在提高生
    的頭像 發(fā)表于 09-09 09:18 ?578次閱讀

    如何利用AI進(jìn)行提升自我呢?

    利用AI進(jìn)行學(xué)習(xí)是一個(gè)高效且富有創(chuàng)新性的過程。以下是一些建議,幫助你充分利用AI進(jìn)行學(xué)習(xí): 選擇適合的A
    的頭像 發(fā)表于 07-19 10:46 ?564次閱讀

    平衡創(chuàng)新與倫理:AI時(shí)代的隱私保護(hù)和算法公平

    ,如果醫(yī)生和患者都能了解AI推薦治療方案的原因,將大大增加對(duì)技術(shù)的接受度和信任。 算法公平性的保障同樣不可或缺。AI系統(tǒng)在設(shè)計(jì)時(shí)就需要考慮到多樣性和包容性,避免因?yàn)橛?xùn)練數(shù)據(jù)的偏差而導(dǎo)致結(jié)果的不公平
    發(fā)表于 07-16 15:07

    廣和通端側(cè)AI解決方案榮膺M(jìn)WCS 2024邊緣AI計(jì)算最佳創(chuàng)新獎(jiǎng)

    在近日舉行的2024世界移動(dòng)通信大會(huì)·上海(MWCS 2024)上,廣和通憑借其卓越的端側(cè)AI解決方案榮獲2024信息通信業(yè)“新質(zhì)推薦”——邊緣AI計(jì)算最佳創(chuàng)新方案獎(jiǎng)。這一榮譽(yù)不僅彰顯
    的頭像 發(fā)表于 06-28 15:44 ?775次閱讀

    Imagination 引領(lǐng)邊緣計(jì)算AI創(chuàng)新,擁抱AI未來發(fā)展

    6月25日,2024“N+”AI互動(dòng)創(chuàng)新論壇在南京舉辦,Imagination中國(guó)資深副總裁張曉波受邀出席。在主題演講中,張曉波表示,Imagination作為圖形、計(jì)算和邊緣人工智能領(lǐng)域的領(lǐng)導(dǎo)者
    的頭像 發(fā)表于 06-28 08:28 ?549次閱讀
    Imagination 引領(lǐng)邊緣<b class='flag-5'>計(jì)算</b>和<b class='flag-5'>AI</b><b class='flag-5'>創(chuàng)新</b>,擁抱<b class='flag-5'>AI</b>未來發(fā)展

    計(jì)算與企業(yè)IT成本治理

    時(shí)至今日,云計(jì)算已逐步替代傳統(tǒng)IT中服務(wù)器、存儲(chǔ)、虛擬化等單體軟硬件的IT架構(gòu),成為企業(yè)IT能力中最重要的組成部分。企業(yè)在利用計(jì)算帶來的便利、敏捷的同時(shí),也越來越多依靠云計(jì)算提供的持
    的頭像 發(fā)表于 06-19 09:40 ?564次閱讀
    云<b class='flag-5'>計(jì)算</b>與企業(yè)IT<b class='flag-5'>成本</b>治理