7月15日,由全球知名電子科技媒體<電子發(fā)燒友>主辦的“AI+語音/圖像”智能技術(shù)線上論壇圓滿舉行,本次論壇邀請到來自知存科技、萊迪思、聲揚科技、清微智能、希爾貝殼等企業(yè)的專家和領(lǐng)導(dǎo)進行精彩的技術(shù)分享。
在電子行業(yè)內(nèi)卷嚴(yán)重的時候,人工智能是為數(shù)不多還在快速增長的行業(yè)之一。電子發(fā)燒友總經(jīng)理張迎輝表示,以前人們對于人工智能的技術(shù)定義,是非常高大上,非常前沿的,經(jīng)過三年的AI技術(shù)落地,不少朋友將人工智能技術(shù)的定義,改成了減少人力工作的智能技術(shù)。
知存科技:存算一體芯片的發(fā)展、挑戰(zhàn)和未來
本次論壇,知存科技CEO王紹迪帶來的主題是《存算一體芯片的發(fā)展、挑戰(zhàn)和未來》,知存科技成立于2017年,并且公司團隊早在2012年就開始存算一體技術(shù)研發(fā),2018年完成國內(nèi)首個存算一體芯片流片,2020年發(fā)布首個存算一體芯片產(chǎn)品WTM1001,2021年WTM1001量產(chǎn),并發(fā)布第二代產(chǎn)品WTM2101。
據(jù)王紹迪介紹,近十年來摩爾定律開始放緩,而存儲器在更早的時候摩爾定律就接近終結(jié),比如DRAM工藝現(xiàn)在進行到10-20nm之間,一般在15-17nm工藝,F(xiàn)lash一般是20-40nm之間的工藝流程,存儲器的工藝實際上比邏輯芯片更老,這導(dǎo)致存儲器的速度在過去10-20年里都很難提升。
這就造成了存儲墻瓶頸,一是數(shù)據(jù)搬運慢,存儲容量越來越大,存儲器帶寬速度沒有增加,CPU速度越來越快,核數(shù)從雙核、四核、八核,到幾千核、上萬核,這導(dǎo)致每個核能使用的存儲器資源越來越少,數(shù)據(jù)量大,做運算的時候,大部分時間都消耗在數(shù)據(jù)搬運上,運算速度受到存儲帶寬的影響,無法進一步提升。
二是搬運能耗大,據(jù)王紹迪介紹,在28nm工藝下,32bit數(shù)加法功耗基本是0.1/0.9pJ,乘法是3.1/3.7pJ,當(dāng)把64bit數(shù)從8KB SRAM中取出,消耗功耗10pJ,從1MB SRAM中拿出,消耗功耗100pJ,說明存儲器越大,從中取出一個數(shù)需要的功耗也越大,如果從芯片外部DRAM中取出來,需要消耗2000pJ,搬運功耗是運算功耗的幾百倍。
現(xiàn)在大部分芯片都采用馮諾依曼架構(gòu),上述存儲墻瓶瓶頸與此有關(guān),為了解決這些問題,出現(xiàn)了3D Xpoint、3D封裝等方案,用于減少搬運耗時和功耗大的問題,不過這些還都是采用馮諾依曼架構(gòu),存算一體與這些方法有所不同,存算一體可以理解成用存儲器去做運算,存算一體芯片也像是計算芯片。
存儲一體的應(yīng)用場景廣泛,包括可穿戴、智能IPC、移動終端、AR/VR、智能駕駛、數(shù)據(jù)中心等,不同應(yīng)用場景,對存算一體芯片的算法和算力的要求也不一樣。
知存科技第二代產(chǎn)品WTM2101,是一款基于RISC-V的存算一體芯片,該芯片包括存算一體MPU,用于實現(xiàn)深度學(xué)習(xí)算法,RISC-VCore,加速單元,RAM,以及Audio codec,可以處理外面麥克風(fēng)采集來的數(shù)據(jù),這顆存算一體芯片可以用來做一些算法級的應(yīng)用,比如語音識別、語音增強、血壓/血糖、心電算法等。
萊迪思:CrossLink-NX FPGA助力網(wǎng)絡(luò)邊緣AI
萊迪思亞太區(qū)資深市場開拓經(jīng)理林國松分享了《使用超低功耗FPGA在網(wǎng)絡(luò)邊緣實現(xiàn)毫瓦級人工智能》的主題演講。
2020年萊迪思營收達到4.08億美元,過去四年的出貨量超過10億片。主要聚焦在通信計算(39%)、工業(yè)和汽車(37%)、消費電子和其他(24%)。萊迪思FPGA的產(chǎn)品定位在小尺寸、低功耗、安全、可靠設(shè)計和易于使用。
ABI Research數(shù)據(jù)顯示,截至2024年,設(shè)備端AI推理功能預(yù)計將覆蓋60%的設(shè)備。
網(wǎng)絡(luò)邊緣應(yīng)用的性能要求,包括1-500GOPS,功耗要求低于50mW,0.5-5TOPS算力的,功耗要求低于5W,大于10TOPS的,功耗要求低于50W。
萊迪思sensAI推出一系列FPGA產(chǎn)品,例如比較新的CrossLink-NX,還有IP CORE,開發(fā)軟件等。
下圖右側(cè)是萊迪思的FPGA,左側(cè)顯示有訓(xùn)練模型,通過萊迪思開發(fā)的神經(jīng)網(wǎng)絡(luò)編譯器轉(zhuǎn)化成量化的權(quán)重和指令。此外,通過FPGA設(shè)計使用人工智能訓(xùn)練后的量化權(quán)重和指令,達到AI功能的實現(xiàn)。
最近,萊迪思推出全新的sensAI Studio。方便客戶更快的配置訓(xùn)練環(huán)境,令客戶專注于開發(fā)AI功能。sensAI Studio能夠快速搭建訓(xùn)練的網(wǎng)絡(luò),優(yōu)化開發(fā)流程。
萊迪思通過軟件優(yōu)化的設(shè)計方法,目前可支持到Tensorflow Lite,在標(biāo)準(zhǔn)環(huán)境訓(xùn)練完成后通過編譯器進行轉(zhuǎn)換,再植入到FPGA器件上。
CrossLink-NX
CrossLink-NX 系列 FPGA 的設(shè)計采用了全新的Lattice Nexus技術(shù)平臺,結(jié)合了28 nm FD-SOI 制造工藝與 Lattice的全新 FPGA 架構(gòu),針對小尺寸、低功耗應(yīng)用進行了優(yōu)化。
例如,在針對圖像的AI處理參考設(shè)計中,傳感器的圖像數(shù)據(jù)傳給FPGA器件,進行神經(jīng)網(wǎng)絡(luò)加速,輸出結(jié)果給MCU。
從性能上看,NX-40K提供60fps每秒速率,是上一代產(chǎn)品的12倍,功耗方面,與上一代相比功耗減半。這兩項指標(biāo)在與MCU相比也有顯著的優(yōu)勢。
CrossLink-NX提供17-40K邏輯單元,大量嵌入式存儲和DSP模塊,具有瞬間啟動,支持硬核PCIe等。在器件內(nèi)部,由于增強了嵌入式存儲器,將所有AI的計算過程在FPGA片上實現(xiàn)。省去外部RAM,有助于降低功耗,提升幀率和性能。
它重點應(yīng)用于超低功耗人員偵測,超低功耗關(guān)鍵詞和手熱檢測,多個目標(biāo)的檢測和計數(shù),以及片上注冊和識別物體。
萊迪思提供快速原型設(shè)計的模塊化平臺,包括UPduino Shield開發(fā)板,和嵌入式視覺開發(fā)套件。前者重點是超低功耗,后者是對性能要更高求的應(yīng)用。此外,軟件工具方面提供神經(jīng)網(wǎng)絡(luò)編譯器。還提供CNN Plus加速器IP,可簡化神經(jīng)網(wǎng)絡(luò)在CrossLink-NX的實現(xiàn)。
網(wǎng)絡(luò)邊緣AI的算法持續(xù)推陳出新,F(xiàn)PGA具有可拓展的性能應(yīng)對各類應(yīng)用案例,可以靈活應(yīng)對,且具有靈活的計算資源、超低功耗和可編輯硬件等特性。萊迪思CrossLink-NX FPGA以高性能數(shù)據(jù)處理、低功耗運行且尺寸較小的特性,為客戶提供網(wǎng)絡(luò)邊緣 AI/ML 推理解決方案。
聲揚科技謝基有:語音交互智能分析在產(chǎn)業(yè)數(shù)字化的應(yīng)用
聲揚科技是業(yè)界領(lǐng)先的語音交互智能分析平臺與新型知識服務(wù)提供商,為金融、公安、政府、IoT和互聯(lián)網(wǎng)行業(yè)提供了“以用戶為中心”的語音智能化解決方案。聲揚科技產(chǎn)品VP謝基有在本次線上論壇介紹了“語音交互智能分析在產(chǎn)業(yè)數(shù)字化的應(yīng)用”。
語音交互全流程 / 聲揚科技
AI語音分析已經(jīng)在諸多汽車場景中的得到了應(yīng)用,比如車內(nèi)降噪和身份核驗等。然而復(fù)雜的車內(nèi)聲音空間,對前端語音處理來說是一項巨大的挑戰(zhàn)。車內(nèi)存在多聲道、音量大和非線性失真大的問題,噪聲的存在同樣不可忽視,比如風(fēng)噪、地面胎噪、空調(diào)出風(fēng)口噪聲、引擎噪聲和振動噪聲等。
車內(nèi)聲音處理 / 聲揚科技
聲揚科技的車載前端雙音區(qū)拾音車規(guī)芯片解決了這些挑戰(zhàn),為車內(nèi)語音交互系統(tǒng)提供了雙音區(qū)拾音、人聲分離和超強降噪功能。聲揚科技還為客戶提供智能車載操作系統(tǒng),通過聲紋識別來確認(rèn)車主身份,從硬件與系統(tǒng)上大幅提升人車語音交互體驗。
在數(shù)字金融的運用上,智能語音可以助力產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級,用于金融風(fēng)控反欺詐、APP聲紋登錄、聲紋開卡等操作和管理。聲揚科技也是中國工商銀行總行聲紋識別項目的唯一供應(yīng)商,F(xiàn)inVoice智能語音認(rèn)證系統(tǒng)已在多場景上線,用戶量達4.16億。
聲揚科技擁有全棧語音技術(shù)儲備,基于深度神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能前言理論打造了多項自主可控的原創(chuàng)計算機聽覺技術(shù),覆蓋了前端聲學(xué)信號采集、語音信號處理、后端特征提取識別等全流程,構(gòu)建了以聲紋識別為特色的1+N智能語音算法體系。在智能語音技術(shù)上,聲揚科技具備自動防錄音攻擊、超短語音驗證、跨信道等優(yōu)勢,而且系統(tǒng)資源占用低,支持高并發(fā)和海量千萬級數(shù)據(jù)庫檢索。
北京清微智能于義:可重構(gòu)計算芯片高效解決兩大AI場景中的痛點問題
7月15日,在電子發(fā)燒友主辦的AI線上技術(shù)峰會上,來自北京清微智能科技有限公司的首席架構(gòu)師于義帶來了精彩演講。
“AIoT產(chǎn)業(yè)是多種技術(shù)融合,賦能各行業(yè)的產(chǎn)業(yè),整體市場潛在空間超過十萬億,智能時代的支撐就是計算力,計算力的不斷提升催生新的需求和產(chǎn)品?!庇诹x表示,“智能化主要體現(xiàn)在感知智能化、分析智能化和控制智能化,具體表現(xiàn)在智慧城市、智能制造、智能家居、智能駕駛、智能零售等場景需要強大計算力?!?br />
AIoT產(chǎn)業(yè)對于芯片的要求體現(xiàn)在四點:高算力、高能效、靈活性、安全性。比如視頻跟蹤需要高算力,來支持智能識別的應(yīng)用;高能效意味著芯片在有限的能量下完成更多的智能任務(wù),靈活性主要聚焦萬物智能,芯片應(yīng)用多種多樣,具備靈活性適配各種算法、各種應(yīng)用;安全性,表現(xiàn)為數(shù)據(jù)安全,智能時代的安全性要求用戶數(shù)據(jù)安全被訪問、被處理。
傳統(tǒng)的計算架構(gòu)無法滿足AIoT計算需求,可重構(gòu)智能芯片是基于可重構(gòu)數(shù)據(jù)流/控制流計算架構(gòu)的AI芯片類型,具有按需即時重構(gòu)、高能效、低功耗、通用性特點,被《國際半導(dǎo)體技術(shù)路線圖》評為最具前景的未來計算架構(gòu),美國電子復(fù)興計劃(ERI)將可重構(gòu)計算技術(shù)列為未來美國在電子行業(yè)一直保持領(lǐng)導(dǎo)地位的核心關(guān)鍵技術(shù),是后摩爾時代的顛覆性技術(shù)之一,也是各國爭相搶占的科技制高點。
清微智能成立于2018年7月,公司核心創(chuàng)業(yè)團隊來自清華大學(xué)微電子所,可重構(gòu)計算技術(shù)已經(jīng)在清華大學(xué)經(jīng)歷了10年的探索,公司在2016年到2018年連續(xù)推出了Think Series系列芯片,性能和水平處于業(yè)界領(lǐng)先。清微智能是可重構(gòu)計算芯片領(lǐng)導(dǎo)企業(yè),核心技術(shù)指標(biāo)領(lǐng)跑全球,在產(chǎn)品應(yīng)用上,也是第一個將可重構(gòu)芯片真正商用落地的企業(yè)。于義表示,清微智能的核心可重構(gòu)技術(shù)包括:四元編程重構(gòu)計算模式、低功耗設(shè)計、融合存內(nèi)計算的可重構(gòu)架構(gòu)、異步電路驅(qū)動可重構(gòu)技術(shù)。
于義介紹說,2018年10月,清微智能進行了Pre-A輪融資,2019年6月量產(chǎn)了超低功耗的智能語音Soc芯片TX210。2020年10月,清微智能量產(chǎn)了全球首款多模態(tài)智能計算芯片TX510芯片,這款芯片在智能安防、金融支付、航空航天等領(lǐng)域交付客戶。2021年4月,清微智能量產(chǎn)了全球首款集成獨立NPU的藍牙Soc芯片TX231,已應(yīng)用于多款TWS耳機、平板、手環(huán);2021年11月,清微智能即將量產(chǎn)圖像芯片TX511,采用分布式可重構(gòu)處理核心,芯片性能將有數(shù)十倍提升,12月份還會推出更高端的810系列。公司與TSMC、平頭哥有深度合作。
希爾貝殼:算法+數(shù)據(jù)的開源如何實踐與語音模型評測方案
北京希爾貝殼科技有限公司 CEO卜輝帶來《算法+數(shù)據(jù)的開源如何實踐與語音模型評測方案》主題演講。隨著AI技術(shù)的成熟與應(yīng)用迭代,中國智能語音市場將保持約25%的增長速度,預(yù)計到2023年,智能語音產(chǎn)業(yè)規(guī)模將超600億。
語音技術(shù)大致分為語音識別技術(shù)(ASR)、語音合成技術(shù)(TTS)、聲紋識別技術(shù)(VPR)。隨著技術(shù)的不斷迭代,語音技術(shù)已經(jīng)應(yīng)用到移動設(shè)備、汽車、家居、金融等各個場景中,卜輝強調(diào),語音識別技術(shù)的應(yīng)用核心是算力、算法的支持。
隨著開源力量的崛起,市場的需求也越來越多。語音技術(shù)的開源主要是集中在海外的早期開源軟件系統(tǒng)及算法,但國內(nèi)的AI開發(fā)環(huán)境優(yōu)于國外,例如目前全球最大的語音技術(shù)開發(fā)社區(qū)Kaldi在國內(nèi)擁有很多開發(fā)者。
希爾貝殼自成立之初聚焦于場景數(shù)據(jù)服務(wù),建立了開源數(shù)據(jù)項目。在疫情的影響下,越來越多的企業(yè)采用會議辦公模式。卜輝認(rèn)為,在會議場景下,對于說話人的跟蹤、特點對象的內(nèi)容轉(zhuǎn)寫、噪聲等等,還有很多技術(shù)的點需要研究。為此,希爾貝殼發(fā)布了多通道中文會議語音數(shù)據(jù)庫AISHELL-4。
卜輝介紹,AISHELL-4是一個通過麥克風(fēng)陣列實錄的八通道中文普通話會議場景語音數(shù)據(jù)集,包含211場會議,每場會議4至8人,數(shù)據(jù)集共120小時左右。同時提供了準(zhǔn)確的音字轉(zhuǎn)寫文本及時間戳信息,方便研究者進行諸如前端處理、語音識別、說話人分割等單獨任務(wù),并可以進行聯(lián)合優(yōu)化。
語音識別的準(zhǔn)確率是通過數(shù)據(jù)集的評估可以體現(xiàn)具體的性能指標(biāo)。卜輝圖提到,面向場景語音識別模型的評測數(shù)據(jù)集評估規(guī)范建設(shè)可以推動智能語音技術(shù)的規(guī)范化。
希爾貝殼認(rèn)為,隨著整體AI算法環(huán)境的提升,語音識別技術(shù)不再是單項落地,聽覺、視覺、自然語言處理結(jié)合將成為趨勢,面向場景ASR模型的測試評估數(shù)據(jù)集也將重要的評估方式。未來,希爾貝殼將研發(fā)建設(shè)不完善的語言數(shù)據(jù),同時結(jié)合圖像、感知等的數(shù)據(jù)來形成多模態(tài)智能語音數(shù)據(jù)。
完整論壇視頻回放,請點擊:https://webinar.elecfans.com/replay/656.html
-
語音
+關(guān)注
關(guān)注
3文章
385瀏覽量
38081 -
智能
+關(guān)注
關(guān)注
8文章
1714瀏覽量
117611 -
知存科技
+關(guān)注
關(guān)注
0文章
59瀏覽量
4068
發(fā)布評論請先 登錄
相關(guān)推薦
評論