上海雪湖科技有限公司成立于2017年9月,專注于深度學(xué)習(xí)加速器和FPGA硬件加速,目前已獲得包括美圖公司在內(nèi)的2輪投資??蔀?a href="http://www.wenjunhu.com/v/tag/150/" target="_blank">人工智能、金融交易、工業(yè)控制、生物醫(yī)藥、氣象研究等提供一站式FPGA加速技術(shù)解決方案。
FPGA已經(jīng)到了火山口的狀態(tài)。
雪湖科技COO王韻做出這種判斷,是基于AI、5G等帶來的數(shù)據(jù)量指數(shù)級(jí)增長(zhǎng)的需求。對(duì)于大規(guī)模并行計(jì)算,F(xiàn)PGA是一個(gè)非常核心的選擇。
根據(jù)MRFR統(tǒng)計(jì),2018年全球FPGA市場(chǎng)規(guī)模為60億美元左右,而隨著AI+5G的應(yīng)用逐步展開,市場(chǎng)規(guī)模有望在2025年達(dá)到125億美元,年復(fù)合增長(zhǎng)率為10.22%。其中在亞太地區(qū),尤其是在中國(guó),由于新興基礎(chǔ)建設(shè)應(yīng)用的鋪開,F(xiàn)PGA的復(fù)合增長(zhǎng)率有望高于其他地區(qū),成為重要的增量市場(chǎng)。
除了AI、5G,汽車也是重要的驅(qū)動(dòng)力。隨著智能駕駛的推進(jìn),車上的數(shù)據(jù)運(yùn)算規(guī)模將比傳統(tǒng)汽車達(dá)到十倍、甚至百倍的增長(zhǎng)。由于汽車對(duì)于實(shí)時(shí)性的高要求,導(dǎo)致它無法進(jìn)行數(shù)據(jù)上云,而現(xiàn)有的車身運(yùn)算架構(gòu),更適合進(jìn)行控制,完全無法支撐未來的運(yùn)算規(guī)模。況且,未來還有車與車之間的通信,還有海量的大規(guī)模數(shù)據(jù)爆發(fā)的場(chǎng)景。
FPGA不是小賽道!
我很好奇雪湖科技當(dāng)時(shí)為什么選擇FPGA這個(gè)小賽道,畢竟這是個(gè)被巨頭和寥寥可數(shù)的幾家公司長(zhǎng)期主導(dǎo)的市場(chǎng),不乏“不差錢”的創(chuàng)業(yè)公司已經(jīng)死在半路上。
王韻并不這樣看,他認(rèn)為FPGA是一個(gè)絕對(duì)值得憧憬的大賽道。相對(duì)于全球4000億芯片市場(chǎng)規(guī)模,F(xiàn)PGA現(xiàn)在60億的規(guī)模雖然并不大,但是根據(jù)測(cè)算,它有望在5年內(nèi)增長(zhǎng)到200億。如果再放到應(yīng)用市場(chǎng)去看,將會(huì)是乘以10的規(guī)模。
雪湖科技在2017年成立時(shí),就已經(jīng)看到了整個(gè)行業(yè)的大趨勢(shì)。而最重要的是,一切都源于核心團(tuán)隊(duì)的早期積累,以及對(duì)FPGA創(chuàng)業(yè)的沖動(dòng)和熱情。
“我們公司都是一幫特別喜歡FPGA的人,比如CEO張強(qiáng),早些年曾以核心開發(fā)人員的身份參與了多個(gè)全球性的FPGA科研項(xiàng)目,和NASA、美國(guó)國(guó)家癌癥中心和國(guó)內(nèi)的科研院所都進(jìn)行過合作”,王韻介紹。
張強(qiáng)做過的一個(gè)很有名的項(xiàng)目是比爾蓋茨基金旗下的“激光打蚊子”,曾經(jīng)獲得了該年度“福布斯全球十大發(fā)明”之一。這個(gè)項(xiàng)目的目的是幫助非洲消滅瘧疾的主要傳播者——蚊子。生化方面的方案由于不夠環(huán)保,因此選擇了激光這一手段,張強(qiáng)團(tuán)隊(duì)負(fù)責(zé)整個(gè)項(xiàng)目的算力部分。整個(gè)方案最大的難點(diǎn)在于,要在高速攝像頭取景框中同時(shí)抓取到的4000多只蚊子中,區(qū)分出公蚊子、母蚊子甚至還有蜜蜂。而這還不夠,由于只有母蚊子才叮人,因此需要精確識(shí)別出母蚊子,再控制激光頭打掉它的翅膀(至于為什么不直接消滅蚊子而是只打掉它的翅膀?原因在于采用的是小功率的民用激光頭,能量不足以消滅掉它,但打掉翅膀就等同于喪失了叮咬能力)。
整套方案基于非常精妙的設(shè)計(jì)和環(huán)環(huán)相扣的運(yùn)算,而要完成這樣的運(yùn)算,對(duì)于芯片的硬件性能要求非常高。該方案的所有視覺處理運(yùn)算,都是通過FPGA來完成的。
不只是CEO,王韻本人也是半導(dǎo)體領(lǐng)域的資深人士。他是日本國(guó)立九州大學(xué)碩士,師從著名的產(chǎn)業(yè)經(jīng)濟(jì)學(xué)教授山崎朗,曾就職于富士通集團(tuán),任職亞太區(qū)高管。在半導(dǎo)體領(lǐng)域多年的從業(yè)經(jīng)歷,使他注意到了摩爾定律下的半導(dǎo)體工藝紅利消失后,算力即將出現(xiàn)的巨大缺口?!澳悴挥X得嗎?FPGA是一個(gè)很神奇的芯片,它打通摩爾定律,可以發(fā)揮軟件人的能力來定義硬件,可以幫助實(shí)現(xiàn)很多數(shù)據(jù)運(yùn)算、完成加速,太多的機(jī)會(huì)可以去開拓了”,王韻興奮地表示。
FPGA加速三大場(chǎng)景——AI、圖片/視頻、仿真
FPGA是加速許多計(jì)算工作負(fù)載的出色平臺(tái),特別是那些數(shù)據(jù)通路適用于大規(guī)模并行運(yùn)算的工作負(fù)載。FPGA可以通過在硬件中實(shí)現(xiàn)重要的計(jì)算密集算法塊來減少對(duì)傳統(tǒng)處理器的調(diào)用,從而大幅減少延遲、降低功耗。
FPGA在AI方面的加速能力有目共睹。深度學(xué)習(xí)是近幾年AI的主要推動(dòng)力,它需要大量的并行計(jì)算。GPU在深度學(xué)習(xí)訓(xùn)練方面成為主流,但是,在大規(guī)模推理部署和一些對(duì)延時(shí)敏感的場(chǎng)景,F(xiàn)PGA由于具有更好的性能功耗比,且基于門級(jí)電路設(shè)計(jì)使得FPGA是一個(gè)低延時(shí)的方案,此外,其可編程性及動(dòng)態(tài)可重構(gòu)可以適應(yīng)算法的變化,I/O可編程性可以滿足更多業(yè)務(wù)需求(例如網(wǎng)絡(luò)加速、邊緣計(jì)算等),因此基于FPGA的加速方案越來越盛行。
AI之外,加速場(chǎng)景其實(shí)很多。
圖片/視頻可能會(huì)是即將爆發(fā)或是正在爆發(fā)的下一個(gè)場(chǎng)景。今年雙11,淘寶/天貓APP、網(wǎng)頁端,實(shí)現(xiàn)不同格式或分辨率的圖片轉(zhuǎn)碼全部由FPGA來完成的?!斑@就是一個(gè)非常明顯的趨勢(shì)”,王韻提到,“隨著交易量的攀升,這個(gè)需求還會(huì)變大。特別是現(xiàn)在還不止圖片瀏覽,還有直播等多種形態(tài)的出現(xiàn)?!?/p>
根據(jù)預(yù)測(cè),到2022年,視頻將占據(jù)全球80%的移動(dòng)數(shù)據(jù)流量。而FPGA可以實(shí)現(xiàn)運(yùn)算加速、內(nèi)存加速、智能網(wǎng)卡加速等等。
第三個(gè)有希望普及的場(chǎng)景就是計(jì)算機(jī)仿真,但前提是算力需要足夠的便宜。王韻分析,計(jì)算機(jī)仿真已經(jīng)開始有民用化的趨勢(shì)。最早計(jì)算機(jī)仿真用于航天領(lǐng)域,被NASA用于對(duì)航天飛機(jī)進(jìn)行損傷評(píng)估。后來,由車企引入汽車設(shè)計(jì)的最后流程中,通過仿真對(duì)設(shè)計(jì)的合理性、疏漏等進(jìn)行評(píng)估。與傳統(tǒng)的方式相比,大大縮短了造車的時(shí)間周期。
那么未來,有沒有更多場(chǎng)景會(huì)用到基于FPGA加速的仿真?王韻認(rèn)為關(guān)鍵在于“算得夠快、算得便宜”,當(dāng)這個(gè)問題得解時(shí),一定會(huì)存在越來越多的可能性。
互聯(lián)網(wǎng)廣告和內(nèi)容點(diǎn)擊率的新風(fēng)口
看到了互聯(lián)網(wǎng)公司對(duì)廣告投放、內(nèi)容點(diǎn)擊率的痛點(diǎn)后,雪湖科技推出了“WideandDeep”FPGA加速器。這是一個(gè)什么樣的方案?
你可能有和我一樣的感覺,云音樂推薦的“今日歌單”,抖音上的短視頻,購(gòu)物APP的“猜你喜歡”,怎么就那么懂我?
其實(shí),這些推送都是由機(jī)器學(xué)習(xí)搭建的推薦系統(tǒng)預(yù)測(cè)的結(jié)果。
推薦系統(tǒng)中,CTR(Click-Through-Rate,點(diǎn)擊率)至關(guān)重要。這就需要更為精準(zhǔn)的推薦和投放。2016年,谷歌提出了“WideandDeep”算法模型,現(xiàn)在已經(jīng)被Facebook、Youtube等國(guó)際領(lǐng)先的互聯(lián)網(wǎng)公司廣泛使用。
“WideandDeep”模型主要包括LR和DNN兩部分。這就好比融合了人類從認(rèn)知學(xué)習(xí)過程中演化而來的記憶和學(xué)習(xí)能力:從出生開始,我們不斷學(xué)習(xí)知識(shí),通過記憶達(dá)到見多識(shí)廣的效果。然后通過歷史知識(shí)泛化(generalize)到之前沒見過的。當(dāng)然,由于泛化的結(jié)果不一定都準(zhǔn)確,可以通過記憶(memorization)修正泛化的規(guī)則(generalizedrules),作為特殊去處理。這就是“WideandDeep”的學(xué)習(xí)方式。
舉個(gè)例子:推薦系統(tǒng)通過歷史數(shù)據(jù)知道“喜歡吃水煮魚”的人也“喜歡吃回鍋肉”,當(dāng)輸入為“喜歡吃水煮魚”,推出“喜歡吃回鍋肉”。這部分就是它的記憶能力。
而通過推斷在歷史數(shù)據(jù)中從未見過的情形,由“喜歡吃水煮魚”,“喜歡吃回鍋肉”,推出喜歡吃川菜,進(jìn)而推薦出其他川菜,這就是泛化能力。
但是,模型普遍都存在兩個(gè)問題:
a)偏向于提取低階或者高階的組合特征,不能同時(shí)提取這兩種類型的特征。
b)需要專業(yè)的領(lǐng)域知識(shí)來做特征工程。
當(dāng)輸入一些之前沒有學(xué)習(xí)過的數(shù)據(jù)時(shí),模型表現(xiàn)不夠優(yōu)秀,此時(shí)單單依賴記憶能力是不夠的。通過在CTR模型中引入深度學(xué)習(xí),能夠達(dá)到更好的效果。深度學(xué)習(xí)構(gòu)建多層隱層,通過FC(全連接)的方式挖掘到特征與特征之間的深度隱藏的信息,來提高模型的泛化能力。最終將這兩部分的輸出通過邏輯回歸,就得出預(yù)測(cè)類別。
由于部署于GPU的成本高,這一算法以往采用CPU來加速,但性能并不理想。那么,雪湖科技是如何通過FPGA來實(shí)現(xiàn)的呢?
據(jù)王韻介紹,在完成推薦過程時(shí),會(huì)根據(jù)用戶信息提取用戶自畫像和商品屬性,輸入到模型,再根據(jù)相應(yīng)算子得出最終結(jié)果?;?a target="_blank">賽靈思FPGA構(gòu)建出的“Wideanddeep”加速器,能夠根據(jù)模型API制作出雪湖科技API,再由自研發(fā)的工具包將模型和數(shù)據(jù)轉(zhuǎn)換為可由FPGA處理的數(shù)據(jù),從而快速計(jì)算出結(jié)果。
將結(jié)果進(jìn)行處理和排序也就是我們?nèi)粘?梢姷耐扑]界面了。由于不同的用戶有不同的個(gè)人信息和喜好,經(jīng)過模型計(jì)算也會(huì)有不同的結(jié)果,也就對(duì)應(yīng)出不同的推薦內(nèi)容了。
相較于CPU服務(wù)器,基于FPGA加速器打造的這一解決方案將吞吐量提高了3~5倍,性價(jià)比是CPU的5.5倍。對(duì)推薦系統(tǒng)動(dòng)輒上億、幾十億的部署,帶來巨大的經(jīng)濟(jì)效益。
雪湖科技和賽靈思已經(jīng)共同推出了由AlveoU200加速卡支持實(shí)現(xiàn)的“WideandDeep廣告推薦算法加速解決方案”,相較于CPU服務(wù)器,把吞吐量提高了3~5倍,加上功耗更低,其TOC(總體擁有成本)是CPU云的5倍以上。一組廣告預(yù)估CTR數(shù)據(jù)顯示,綜合成本、性能來看,這一FPGA加速器產(chǎn)品相對(duì)CPU呈現(xiàn)出了絕對(duì)優(yōu)勢(shì)。
考慮到大型推薦系統(tǒng)的上線都是通過云端部署,同時(shí)用在線和離線方式更新模型。雪湖科技還把以WideandDeep為基礎(chǔ)網(wǎng)絡(luò)的模型移植到阿里云FPGA服務(wù)器F3上,用戶可以通過鏡像文件部署。根據(jù)最近的更新數(shù)據(jù)顯示,模型精度損失可控制在十萬分之二。當(dāng)模型更新時(shí),通過雪湖科技提供的專有工具可直接載入模型參數(shù),可做到一鍵式更新模型參數(shù)。
我們不一樣——用ASIC的方法開發(fā)FPGA
基于在半導(dǎo)體領(lǐng)域數(shù)十年摸爬滾打的經(jīng)驗(yàn),雪湖科技團(tuán)隊(duì)對(duì)FPGA的理解更為深刻,也使得他們?cè)诔闪⒍潭虄赡陜?nèi)取得了快速的發(fā)展。
王韻說,“我們有一句口號(hào),叫做‘一樣的FPGA,不一樣的加速’。同樣一個(gè)芯片,經(jīng)過我們軟件開發(fā)后,跟別人開發(fā)達(dá)到的性能是完全不一樣的。我們的產(chǎn)品思路是:用ASIC的方法去開發(fā)FPGA,也許在物理上無法實(shí)現(xiàn),但是可以去無限接近ASIC的水平。當(dāng)它無限接近時(shí),一部分ASIC市場(chǎng),就會(huì)變成FPGA的市場(chǎng)?!?/p>
不過,王韻并不認(rèn)為未來ASIC、GPU或是FPGA中的哪個(gè)會(huì)吃遍天下,而一定是共存的狀態(tài),只不過各有自己更適合的場(chǎng)景。
雪湖科技還有一句口號(hào),印在公司的文化衫背后——“愿算力與你同在”。這句源于王韻由兒子的星際大戰(zhàn)玩具得到的靈感,蘊(yùn)藏了兩重深刻含義:第一,表明他們是聚焦于算力的公司;第二,也是雪湖科技的愿景,是他們希望達(dá)成的終極目標(biāo)。
伴隨著數(shù)字化的發(fā)展,算力的缺口一直存在,且正在因?yàn)锳I的發(fā)展不斷增大。雪湖科技的切入點(diǎn)從FPGA加速開始,通過算法提升來幫助客戶解決算力問題。而AI只是雪湖科技的標(biāo)簽之一,F(xiàn)PGA的應(yīng)用開發(fā)和硬件加速絕對(duì)并不局限于AI。
未來,算力提升的關(guān)鍵是什么?王韻認(rèn)為,首先硬件方面的提升是根本,但是,軟件會(huì)變得越來越重要。
FPGA的軟件定義能力,就像是ASIC的前端設(shè)計(jì)能力一樣重要。以拼樂高來打比方,同樣的一盒樂高,最終的作品可能天壤之別,這就是軟件的能力不同所導(dǎo)致的。“這也就是為什么雪湖科技從軟件的角度切入來提升算法,因?yàn)樗軌蚩缭叫酒旧淼奈锢硖匦?,隨著需求的提升而變化。軟件在算力提升方面變得越來越重要”,王韻表示。
“需要什么樣的人才我們自己培養(yǎng)”
在FPGA200億市場(chǎng)的爆發(fā)前夜,雪湖科技有一個(gè)重要且緊急的問題擺在面前,那就是“人”的問題。國(guó)內(nèi)的FPGA工程師總量并不多,且多數(shù)集中在通信領(lǐng)域和科研院所,這種情況下,吸引優(yōu)秀人才變得難上加難。
據(jù)王韻介紹,他們可能是國(guó)內(nèi)創(chuàng)業(yè)公司中為數(shù)不多的把內(nèi)部培訓(xùn)當(dāng)做差異化競(jìng)爭(zhēng)力的企業(yè)。“雪湖極客學(xué)院”專門給新入職的工程師提供培訓(xùn),而且執(zhí)行非常嚴(yán)格的考試和淘汰制度,三個(gè)月的培訓(xùn)結(jié)束后,會(huì)有隆重的畢業(yè)典禮、正式的畢業(yè)證書頒發(fā)。
這樣一套體系固然有利于新人的培養(yǎng),但是,很有可能就會(huì)成為一個(gè)費(fèi)力不討好的“賠本”生意:三個(gè)月的培訓(xùn)期間,工程師帶薪學(xué)習(xí),零工作量、零業(yè)績(jī),只需要專心學(xué)習(xí)。對(duì)于初創(chuàng)公司,這絕對(duì)是一筆不小的投入。“拿來主義”可不可以?通過高薪挖人、讓人才迅速創(chuàng)造價(jià)值,不是更為便捷?
王韻的答案是:在國(guó)內(nèi)FPGA工程師總量就很少的情況下,互相爭(zhēng)奪人才,不利于市場(chǎng)的增長(zhǎng)和長(zhǎng)遠(yuǎn)發(fā)展。必須解決了人的問題,未來才有可能進(jìn)一步做大。
雪湖極客學(xué)院的內(nèi)訓(xùn)課程,整套制度設(shè)計(jì)由王韻和CEO張強(qiáng)兩人共同完成。目的就是為了保證能在最短時(shí)間內(nèi),培養(yǎng)出能夠快速上手的優(yōu)秀人才。就好比造房子,以前可能需要從拌水泥、黃沙做起,因此需要掌握配比和其他基本的知識(shí)。但現(xiàn)在相當(dāng)于直接給你預(yù)制板了,造房子的速度會(huì)加快,能夠把更多的精力放在怎么把房子造得更好這件事上。
雪湖極客學(xué)院正在逐漸發(fā)揮出作用。第一,員工在這個(gè)體系中,可以快速成長(zhǎng)并得到成就感;第二,利于雪湖科技正在快速形成規(guī)?;能浖a(chǎn)能力、開發(fā)能力,在人才建設(shè)上與其他創(chuàng)業(yè)公司拉開差距。
“需要什么樣的人才,我們可以自己培養(yǎng)”,王韻自信地說。
我沒有問他坐在火山口上是一種什么樣的感覺,應(yīng)該是一種焦灼又幸福的等待吧。
-
FPGA
+關(guān)注
關(guān)注
1629文章
21759瀏覽量
604273 -
雪湖科技
+關(guān)注
關(guān)注
0文章
4瀏覽量
3173
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論