Unisound News
2023年8月20號(hào),最后一屆VoxSRC Workshop 在都柏林召開(kāi)。VoxSRC 2023 國(guó)際說(shuō)話(huà)人識(shí)別競(jìng)賽公布比賽榜單,云知聲團(tuán)隊(duì)奪得Track1(固定訓(xùn)練集說(shuō)話(huà)人確認(rèn))第一名、Track2(開(kāi)放訓(xùn)練集說(shuō)話(huà)人確認(rèn))第二名的優(yōu)異成績(jī)。
Track1 & Track2 名次
VoxSRC是由 University of Oxford(牛津大學(xué))、Facebook AI Research(facebook AI研究院)、Google Research(谷歌研究院)等組織聯(lián)合發(fā)起的國(guó)際說(shuō)話(huà)人識(shí)別競(jìng)賽,是在說(shuō)話(huà)人識(shí)別領(lǐng)域最具影響力和權(quán)威性的國(guó)際賽事之一。
VoxSRC 2023測(cè)試集數(shù)據(jù)來(lái)自訪(fǎng)談、新聞、談話(huà)、辯論等多個(gè)場(chǎng)景,包括專(zhuān)業(yè)編輯音頻和隨意的談話(huà)音頻,同時(shí)混雜著笑聲、其他說(shuō)話(huà)人噪聲等復(fù)雜的背景噪音,涉及跨年齡、跨語(yǔ)種說(shuō)話(huà)人識(shí)別,同時(shí)今年的測(cè)試數(shù)據(jù)繼續(xù)加大難度,專(zhuān)注于短語(yǔ)音說(shuō)話(huà)人識(shí)別,音頻時(shí)長(zhǎng)大部分在2-3s區(qū)間,是VoxSRC有史以來(lái)最難的一屆。
在此次競(jìng)賽中,云知聲采用并進(jìn)一步優(yōu)化了當(dāng)前最領(lǐng)先的算法。這些算法包括基于ResNet系列主干網(wǎng)絡(luò),MQMHA pooling,以及融合了Sub-center和inter-topK的Large-margin損失函數(shù)。此外,云知聲還實(shí)施了多階段訓(xùn)練調(diào)優(yōu)策略等技術(shù)。
除此之外,基于對(duì)比賽任務(wù)的深刻理解,云知聲團(tuán)隊(duì)首次提出了Consistency Measure Factor(CMF) 算法,即建模音頻“說(shuō)話(huà)人特征的一致性”,并將其引入說(shuō)話(huà)人相似度決策中,大幅提升了說(shuō)話(huà)人識(shí)別的準(zhǔn)確率。同時(shí),依托云知聲大規(guī)模算力中心,采用大規(guī)模模型訓(xùn)練框架,訓(xùn)練出ResNet314、ResNet518說(shuō)話(huà)人模型。憑借對(duì)“說(shuō)話(huà)人算法”的創(chuàng)新性研發(fā)和超強(qiáng)力的“算力”支持,云知聲團(tuán)隊(duì)在Track1(固定訓(xùn)練集說(shuō)話(huà)人識(shí)別)賽道以minDCF(最小檢測(cè)代價(jià)函數(shù))0.085、EER(等錯(cuò)誤率)1.588%的卓越表現(xiàn),一舉奪得本次大賽冠軍。
Track 1 (Verification fullysupervised, closed)
Track 2 (Verification fullysupervised, open)
Track1 & Track2 榜單
值得注意的是,云知聲團(tuán)隊(duì)將Track1(官方固定訓(xùn)練數(shù)據(jù))賽道的結(jié)果,直接提交到Track2(可用任何規(guī)模數(shù)據(jù))賽道,卻依然取得了第二名的優(yōu)異成績(jī),這充分證明了其算法的出眾性和領(lǐng)先性。
云知聲:通過(guò)通用人工智能(AGI)創(chuàng)建互聯(lián)直覺(jué)的世界
云知聲AI技術(shù)體系及U+X戰(zhàn)略
作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先驅(qū)之一,云知聲于2016年建立了Atlas人工智能基礎(chǔ)設(shè)施,并據(jù)此開(kāi)發(fā)了具有通用能力的專(zhuān)有大模型山海(UniGPT),成為公司技術(shù)平臺(tái)云知大腦(UniBrain)的新核心,與多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等各類(lèi)智能組件相結(jié)合,為云知聲智慧物聯(lián)、智慧醫(yī)療等業(yè)務(wù)提供高效的產(chǎn)品化支撐,推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略落實(shí),踐行公司使命:“通過(guò)通用人工智能(AGI)創(chuàng)建互聯(lián)直覺(jué)的世界”。
說(shuō)話(huà)人識(shí)別技術(shù),作為云知大腦(UniBrain)的重要組件,已在智能家居、車(chē)載、客服等領(lǐng)域廣泛應(yīng)用,包括身份識(shí)別、個(gè)性化服務(wù)、角色分離等。此次奪冠,進(jìn)一步驗(yàn)證了云知聲的AI技術(shù)實(shí)力,也將進(jìn)一步通過(guò)云知大腦提供業(yè)界領(lǐng)先的說(shuō)話(huà)人感知技術(shù)能力,以及更好的人機(jī)交互體驗(yàn)和分析決策能力,夯實(shí)云知聲AGI技術(shù)底座,推動(dòng)山海大模型在各領(lǐng)域的廣泛應(yīng)用,為千行百業(yè)的智慧化升級(jí)注入更強(qiáng)大的AI動(dòng)力。
未來(lái),云知聲將繼續(xù)堅(jiān)定走在技術(shù)研發(fā)的前沿,不斷推動(dòng)其在AGI相關(guān)技術(shù)的研發(fā)突破,為各行各業(yè)帶來(lái)新的增長(zhǎng)范式與無(wú)限可能。
審核編輯:湯梓紅
-
算法
+關(guān)注
關(guān)注
23文章
4626瀏覽量
93157 -
AI
+關(guān)注
關(guān)注
87文章
31399瀏覽量
269787 -
Agi
+關(guān)注
關(guān)注
0文章
83瀏覽量
10213 -
云知聲
+關(guān)注
關(guān)注
0文章
194瀏覽量
8406
原文標(biāo)題:AGI技術(shù)底座再夯實(shí),云知聲奪冠VoxSRC 2023
文章出處:【微信號(hào):云知聲,微信公眾號(hào):云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論