黑人一进一出又大又粗爽视频,中文字幕视频精品一区二区三区,4455永久在线观免费看片

在加速計算領(lǐng)域25年，英偉達用15億塊GPU的出貨量交上了一份學(xué)霸成績單。

這每一塊GPU都兼容CUDA，都采用同一個架構(gòu)——這是黃仁勛的GPU帝國中最可圈可點的一筆。統(tǒng)一的架構(gòu)，可以用于各種工作負載去實現(xiàn)加速計算；在芯片起點之上，通過完整的堆棧工程可進一步實現(xiàn)加速。

CUDA平臺具有豐富的庫、工具和應(yīng)用程序，僅去年就發(fā)布了500多個SDK和庫，其中既有全新內(nèi)容，也有更新版本。通過不斷優(yōu)化，深度學(xué)習(xí)訓(xùn)練在3年內(nèi)提升了4倍、深度學(xué)習(xí)推理在1年內(nèi)提高了2倍。

過去幾年內(nèi)，AI取得了巨大的進展，開始逐步改變各個行業(yè)。從圖象識別、圖象分類到識別不同的物體等，甚至能夠識別圖象中的每一個像素。這背后，深度學(xué)習(xí)的驅(qū)動力量是巨大的。在今年的GTC上，黃仁勛也重點介紹了英偉達在推薦系統(tǒng)和會話式AI二大方向的重大進展。

在線推薦系統(tǒng)為“雙11”提速

推薦系統(tǒng)已經(jīng)成為互聯(lián)網(wǎng)的重要引擎。我們在線購物時有數(shù)十億的產(chǎn)品有待選擇，上萬億的網(wǎng)頁可供瀏覽、上百萬的視頻以及應(yīng)用……如何將合適的內(nèi)容、產(chǎn)品在合適的時間推送給用戶？這是所有電商平臺、社交媒體等面臨的最大痛點。

這背后需要非常深入地理解每一個用戶的偏好、歷史行為等，以及每一個產(chǎn)品多種多樣的特性，這幾乎形成了一個TB級的數(shù)據(jù)集。

而一個最為生動的案例就是阿里巴巴的年度購物節(jié)“雙11”。今年“雙11”，阿里巴巴創(chuàng)造了380億美元的銷售額，相比于去年的310億美元，增長了近四分之一，是“黑色星期五”和“網(wǎng)購星期一”的網(wǎng)購銷售額總和的兩倍多。

對于阿里巴巴來說，推薦系統(tǒng)是一個至關(guān)重要的應(yīng)用程序。該系統(tǒng)可以向用戶展示與其喜好相匹配的商品，從而提高點擊率。而點擊率在電商行業(yè)一直都是提高銷售量的重要驅(qū)動力。點擊率的每一次小幅提高都會直接影響用戶的體驗和商家的營收。

阿里巴巴使用NVIDIA GPU支持資源分配、模型量化和圖變換三項優(yōu)化策略，從而提高吞吐量和響應(yīng)性。通過NVIDIA T4 GPU，能夠為推薦模型提供加速，實現(xiàn)每秒處理780個查詢，遠遠領(lǐng)先于基于CPU每秒3個查詢的推理。

英偉達加速計算產(chǎn)品管理總監(jiān)Paresh Kharya表示，推薦系統(tǒng)所面臨的挑戰(zhàn)是巨大的，主要體現(xiàn)在兩方面：第一，這些模型極其復(fù)雜，因為需要處理的數(shù)據(jù)量是海量的。為了提升推薦的相關(guān)度，必須要對所有參數(shù)來進行建模。比如：用戶的一些購買記錄、瀏覽記錄等，要處理的參數(shù)非常多。第二，這些模型要做出實時的計算，因為用戶在瀏覽時需要立刻看到推薦結(jié)果，不可能等待很長時間。

這兩大挑戰(zhàn)都需要以非?？斓乃俣韧瓿捎嬎悖⒗锇桶蛷腃PU轉(zhuǎn)移到GPU的使用后，點擊通過率提升了10%。而事實上，這樣的“點擊率”每提升一點點都是非常困難的，GPU由于其實時性、大規(guī)模運行的特性能夠用于這一系統(tǒng)中。

而不僅僅是電子商務(wù)領(lǐng)域，只要是需要將產(chǎn)品與人之間進行匹配都需要用到這樣的推薦系統(tǒng)。百度、快手、美團、微軟必應(yīng)，甚至一些傳統(tǒng)企業(yè)如：沃爾瑪、美國郵政等等，都在其推薦系統(tǒng)中采用了英偉達的GPU平臺。

值得一提的是，其他的處理器如FPGA目前也在發(fā)力推薦系統(tǒng)這一領(lǐng)域。Paresh Kharya表示，AI的更新迭代非?？欤Ｐ偷囊?guī)模非常大，每隔幾分鐘就在進行更新，整個推理過程不斷在變化，因此需要不斷對這些模型進行訓(xùn)練，才可以進行有效的推薦，這需要大量的算力。GPU可以說是AI領(lǐng)域的專用芯片，有指令集優(yōu)勢、全可編程、并且是軟件定義的。此外，架構(gòu)也是向前兼容的，整個硬件架構(gòu)可以隨著軟件不斷更新，而且是在軟件庫就可以直接更新。

不光是GPU能提供的算力，英偉達也在通過工具和軟件來提供支持。比如通過最新的TensorRT來支持模型在各種情景下的部署，并且支持上百萬用戶在每秒內(nèi)做數(shù)十億的搜索。

會話式AI通往真正的人工智能人機交互

在會話式AI方面，黃仁勛宣布了最新版本的推理軟件NVIDIA Tensor RT7，它能夠?qū)崿F(xiàn)更智能的AI人機交互，可實現(xiàn)與語音代理、聊天機器人和推薦引擎等應(yīng)用進行實時互動。

實現(xiàn)會話式AI的難點主要在于什么？Paresh Kharya表示，要實現(xiàn)會話式AI，首先，需要理解用戶到底在說什么，然后將他所說的語音轉(zhuǎn)化成文字，然后理解文字的意思，再把它轉(zhuǎn)化成語言，所以涉及很多模型同時發(fā)揮作用，需要多種多樣的神經(jīng)網(wǎng)絡(luò)提供支持。第二，所有這個復(fù)雜計算的過程必須要在300毫秒之內(nèi)完成，假設(shè)如果需要幾秒鐘的話，這在實際的對話中是無法容忍的時延，會話式AI也就失去了意義。

TensorRT 7內(nèi)置新型深度學(xué)習(xí)編譯器。該編譯器能夠自動優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡(luò)與基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡(luò)。與在CPU上運行時相比，會話式AI組件速度提高了10倍以上，從而得以實現(xiàn)所需的300毫秒閾值以下。

對于在會話式AI領(lǐng)域的投入，黃仁勛表示：“我們已進入了一個機器可以實時理解人類語言的AI新時代。TensorRT 7使這成為可能，為世界各地的開發(fā)者提供工具，使他們能夠構(gòu)建和部署更快、更智能的會話式AI服務(wù)，實現(xiàn)更自然的AI人機交互?！?/p>

TensorRT是英偉達的推理優(yōu)化軟件。英偉達的GPU不論是用在自動駕駛、數(shù)據(jù)中心，還是嵌入式設(shè)備等領(lǐng)域，都需要運行在PyTorch、TensorFlow等多個框架中訓(xùn)練自我優(yōu)化的AI模型，TensorRT能夠提供這種優(yōu)化的模型。

由于AI有多種多樣的使用場景，不同場景由不同的神經(jīng)網(wǎng)絡(luò)提供支持。而為了優(yōu)化AI性能，也需要優(yōu)化各種各樣的神經(jīng)網(wǎng)絡(luò)。TensorRT 7的推出算是跨出了巨大的一步，Transformer和RNN這些模型，都可以用TensorRT 7來進行優(yōu)化。其中，Transformer典型的模型是BERT，有很多非常先進的自然語言理解的功能；RNN的典型例子就是語音識別或者將文本轉(zhuǎn)化成語音。

英偉達對TensorRT 7也進行了大量的優(yōu)化，例如很多數(shù)學(xué)的運算，確保能夠更加高效、并且減少使用的內(nèi)存。另外，TensorRT 7中引入了內(nèi)核生成的功能，用任何RNN都可以生成一個優(yōu)化的內(nèi)核。對比TensorRT 5僅能支持種類很少的幾個神經(jīng)網(wǎng)絡(luò)，TensorRT 7基本上可以支持各大類神經(jīng)網(wǎng)絡(luò)，這些模型對于“會話式AI”是至關(guān)重要的。

首次兼容arm架構(gòu)做加速計算

在GTC上，英偉達還釋放出了一個很值得玩味的信息：宣布推出基于arm的首個參考架構(gòu)——NVIDIA HPC for arm.雙方這一合作，究竟是英偉達加入arm的生態(tài)，還是arm擁抱英偉達的江湖？

英偉達方面只是淡淡一句：希望不論是數(shù)據(jù)中心還是邊緣計算，不論是AI還是高性能計算，都能給客戶更多選擇。之前arm不支持CUDA，客戶已反復(fù)要求我們使用CUDA加速arm，并將arm服務(wù)器打造成HPC和AI的理想選擇。

全球有1500億臺基于arm架構(gòu)的設(shè)備，為客戶想實現(xiàn)的創(chuàng)新提供多種功能：包括互聯(lián)、內(nèi)存、CPU內(nèi)核、計算能力等多元化的支持。

在邊緣計算領(lǐng)域，英偉達已有arm架構(gòu)許可；超算領(lǐng)域，雙方于今年6月宣布了合作。兩個強大平臺和生態(tài)的握手，也并不意外。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5063

瀏覽量
103417
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4762

瀏覽量
129153
英偉達

英偉達

+關(guān)注

關(guān)注
22

文章
3824

瀏覽量
91563

《CST Studio Suite 2024 GPU加速計算指南》

許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計算的啟用 - 交互式模擬：通過加速對話框啟用，打開求解器對話框，點擊“

發(fā)表于 12-16 14:25

加速拋棄英偉達，微軟又發(fā)布一顆芯片 #微軟 #英偉達 #半導(dǎo)體 #芯片 #電路知識

英偉達

jf_15747056

發(fā)布于 :2024年11月21日 17:31:05

搜索歷史

加速計算25年，英偉達GPU帝國的三塊新版圖

在線推薦系統(tǒng)為“雙11”提速

會話式AI通往真正的人工智能人機交互

首次兼容arm架構(gòu)做加速計算

評論

《CST Studio Suite 2024 GPU加速計算指南》

加速拋棄英偉達，微軟又發(fā)布一顆芯片 #微軟 #英偉達 #半導(dǎo)體 #芯片 #電路知識

英偉達與谷歌聯(lián)手加速量子計算設(shè)備設(shè)計

英偉達與谷歌攜手加速量子計算設(shè)備設(shè)計

軟銀升級人工智能計算平臺,安裝4000顆英偉達Hopper GPU

GPU加速計算平臺是什么

三星電子HBM3E內(nèi)存獲英偉達認證，加速AI GPU市場布局

英偉達發(fā)布新版NVIDIAApp

英偉達數(shù)據(jù)中心GPU出貨量飆升,市場份額持續(xù)領(lǐng)跑

英偉達GPU新品規(guī)劃與HBM市場展望

英偉達去年數(shù)據(jù)中心GPU出貨量占比約98%

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

英偉達、AMD、英特爾GPU產(chǎn)品及優(yōu)勢匯總

國內(nèi)GPU新勢力：能否成為英偉達的“終結(jié)者”？

新思科技攜手英偉達：基于加速計算、生成式AI和Omniverse釋放下一代EDA潛能

搜索歷史

加速計算25年，英偉達GPU帝國的三塊新版圖

在線推薦系統(tǒng)為“雙11”提速

會話式AI通往真正的人工智能人機交互

首次兼容arm架構(gòu)做加速計算

評論

加速計算25年，英偉達GPU帝國的三塊新版圖