在 2020 年度的 re:Invent 大會上,亞馬遜云服務(wù)(AWS)推出了全新的機(jī)器學(xué)習(xí)定制訓(xùn)練芯片 Trainium 。通過對 TensorFlow、PyTorch 和 MXNet 提供支持,該公司希望帶來比任何競爭對手都更高的性能表現(xiàn)。此外 Trainium 還可作為一個 EC2 實(shí)例,在 AWS 的 SageMaker 機(jī)器學(xué)習(xí)平臺上使用,基于這些定制芯片的新實(shí)例將于 2021 上半年推出。
Trainium 具有相當(dāng)顯著的速度和成本優(yōu)勢,與標(biāo)準(zhǔn)的 AWS GPU 實(shí)例相比,AWS 承諾可帶來 30% 的吞吐量提升、以及降低 45% 的單次引用成本。
此外 AWS 正與英特爾合作啟動基于 Habana Gaudi 的 EC2 機(jī)器學(xué)習(xí)訓(xùn)練實(shí)例。與定于 2021 年推出的版本相比,未來版本有望帶來高達(dá) 40% 的性價比提升。
需要指出的是,兩款新產(chǎn)品都是去年 re:Invent 大會上推出的 AWS Inferentia 定制芯片方案的補(bǔ)充,且 Trainium 使用了與 Inferentia 相同的軟件開發(fā)套件(SDK)。
據(jù)悉,在機(jī)器學(xué)習(xí)基礎(chǔ)架構(gòu)中,90% 的開銷都用于解決推理成本。盡管 Inferentia 有著成本方面的優(yōu)勢,但開發(fā)團(tuán)隊(duì)也受到了固定 ML 訓(xùn)練的預(yù)算限制。
為了突破訓(xùn)練范圍和頻度的限制,AWS Trainium 通過以云為中心的 ML 訓(xùn)練,帶來了最高性能和最低成本。結(jié)合兩者,客戶能夠切實(shí)擴(kuò)展 ML 訓(xùn)練的工作量、同時加速端到端的部署。
責(zé)編AJX
-
芯片
+關(guān)注
關(guān)注
456文章
50936瀏覽量
424660 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132764 -
AWS
+關(guān)注
關(guān)注
0文章
432瀏覽量
24402
發(fā)布評論請先 登錄
相關(guān)推薦
評論