在11月25日,DevFest 2018 在上海如期舉行。聲網(wǎng)Agora 首席科學(xué)家鐘聲與在座的上千位開(kāi)發(fā)者分享了演講《Deep Learning for MobilePlatforms: Complexity and Performance Analysis》。以下是由 GDG 整理發(fā)布的演講實(shí)錄。
1
關(guān)于演講者
2
演講實(shí)錄
開(kāi)場(chǎng)白
最近在微信群里看到一張很有意思的圖,大家應(yīng)該都見(jiàn)過(guò)大街小巷地鐵站旁邊的手機(jī)貼膜吧?但這張圖的牌子上寫(xiě)的不是「手機(jī)貼膜」而是「模型調(diào)參」。用這個(gè)例子雖然有些不恰當(dāng),但人工智能學(xué)習(xí)算法確實(shí)正在成為我們生存的必殺技,可見(jiàn)人工智能有多火。
從 AI 的應(yīng)用開(kāi)始
回到我們今天的主題,我想問(wèn),今天的午餐和深度學(xué)習(xí)有什么共同之處?餐盒和黑盒,都是盒子。餐盒有一個(gè)沙拉、主菜和餐后的水果。黑盒子打不開(kāi)、看不到。
今天的演講試圖稍稍進(jìn)入黑盒里能看一下,作為工程師,我們都想知其然,也知其所以然。我就基于我們所做的工作稍稍解密一下深度學(xué)習(xí)某些方面。
聲網(wǎng)主要提供實(shí)時(shí)音視頻通信傳輸服務(wù)、編解碼及前后處理等等,我們更多的聚焦在通信實(shí)時(shí)交互領(lǐng)域。
現(xiàn)在的社交娛樂(lè)應(yīng)用里面有很多 AI 的應(yīng)用。美顏,貼紙,包括一些交互動(dòng)作的識(shí)別,變臉、變聲都是屬于風(fēng)格轉(zhuǎn)換,AI 算法在這些方面有很好的應(yīng)用。
除了這些,AI 在后處理端也有很多應(yīng)用。比如如何提升比較模糊的圖像的細(xì)節(jié),更清晰地呈現(xiàn)給大家,提高收視的體驗(yàn);又比如由于網(wǎng)絡(luò)傳輸線(xiàn)路上有丟包,接收的數(shù)據(jù)有失真,這個(gè)也可以利用 AI算法來(lái)補(bǔ)償。
AI 在云端也有更多的應(yīng)用,比如內(nèi)容的監(jiān)管,比如黃色圖片的鑒別,以及識(shí)別暴力圖像,還有語(yǔ)音變成文本,以及情感計(jì)算等等,這些很多在實(shí)時(shí)通信領(lǐng)域里有非常好的應(yīng)用。
超分辨率恢復(fù)模糊圖像
下面以恢復(fù)模糊圖像作為一個(gè)例子,介紹人工智能的深度算法和應(yīng)用。
我們都知道超分辨率(超分,SR)對(duì)恢復(fù)細(xì)節(jié)有幫助。在我們的場(chǎng)景下,由于網(wǎng)絡(luò)帶寬受限,會(huì)產(chǎn)生丟包,因而此時(shí)會(huì)以低碼率壓縮和傳輸圖像,解碼出來(lái)的圖像通常是會(huì)模糊一點(diǎn),影響收視體驗(yàn)。尤其是在直播應(yīng)用里,用戶(hù)希望看到清晰的面容和聽(tīng)到清晰的聲音。
超分是我們后處理的一步,作為跟前面的處理不相關(guān)的一個(gè)處理,這一步放在最后。視頻源經(jīng)過(guò)編碼在網(wǎng)絡(luò)上傳輸,解碼器收到后經(jīng)過(guò)解碼出來(lái)是一個(gè)模糊的圖像,經(jīng)過(guò)超分辨率處理把細(xì)節(jié)提升或者放大,再顯示出來(lái)。
深度神經(jīng)網(wǎng)絡(luò)已經(jīng)被證明了可以較好地生成圖像的細(xì)節(jié)。GAN 模型是一個(gè)非常有效的模型,它也是我們超分算法的基礎(chǔ)模型,接下來(lái)主要是以 GAN 來(lái)做性能和復(fù)雜度的分析。
GAN 模型
下面介紹一下GAN的基本思路。它通常包含兩個(gè)網(wǎng)絡(luò),一個(gè)是生成器,一個(gè)是判別器,這兩個(gè)模型以又合作又對(duì)抗的方式運(yùn)作,最后達(dá)到一個(gè)平衡,使得生成器能夠產(chǎn)生以假亂真的數(shù)據(jù),例如:
當(dāng)判別器接收到的是真實(shí)的圖像數(shù)據(jù),判別器會(huì)把它接受為一個(gè)真實(shí)的數(shù)據(jù)。
當(dāng)生成器輸入的是一個(gè)低分辨率的數(shù)據(jù),我們想生成高清的數(shù)據(jù),希望生成器出來(lái)的數(shù)據(jù)像真的一樣。但判別器的任務(wù)正好相反,它盡量不讓生成的數(shù)據(jù)蒙混過(guò)關(guān),并且要把它踢出去。
一旦被區(qū)別出來(lái)之后,生成器會(huì)反復(fù)訓(xùn)練、調(diào)參,使得生成的數(shù)據(jù)更像真的;判別器也會(huì)反復(fù)訓(xùn)練、努力提高自己的能力,鑒別假數(shù)據(jù)的能力越來(lái)越強(qiáng)??芍^道高一尺魔高一丈,最后二者收斂的時(shí)候判別器再也不能區(qū)分生成器生成出來(lái)的數(shù)據(jù)是真的還是假的,這個(gè)時(shí)候的結(jié)果就被判別器接受了。
最近幾年在頂級(jí) AI 會(huì)議上,三分之二以上的文章可能跟GAN有關(guān)的。
如何設(shè)計(jì)小且優(yōu)的深度學(xué)習(xí)模型?
眾所周知深度學(xué)習(xí)最好的結(jié)果是采用比較大的模型,在比較大的機(jī)器平臺(tái),比如說(shuō)服務(wù)器,有成千上萬(wàn)的 GPU作并行處理來(lái)訓(xùn)練,并且需要有非常大量的訓(xùn)練數(shù)據(jù)集。
但是現(xiàn)在針對(duì)移動(dòng)設(shè)備的應(yīng)用很多,我們做移動(dòng)社交、做直播、通訊,面臨的挑戰(zhàn)是要設(shè)計(jì)一個(gè)小的模型,最好能滿(mǎn)足下面三個(gè)條件:
這個(gè)小模型能夠在移動(dòng)設(shè)備上實(shí)時(shí)地跑,并且不會(huì)消耗太多功耗,不會(huì)引起發(fā)熱等等問(wèn)題。
另外它的結(jié)果還要足夠好,不能因?yàn)槟P妥鲂×硕鴽](méi)有效果,這個(gè)沒(méi)有意義。
訓(xùn)練要能夠基于比較合理數(shù)量的數(shù)據(jù)集就能夠取得好的效果,要上百萬(wàn)個(gè)甚至上千萬(wàn)個(gè)數(shù)據(jù)往往不夠現(xiàn)實(shí),因?yàn)閿?shù)據(jù)收集的成本太高。
接下來(lái)我們作復(fù)雜性分析,我們的目標(biāo)是縮小模型。來(lái)看一些典型的模型,經(jīng)典的一些作圖像分析和識(shí)別的深度神經(jīng)網(wǎng)絡(luò),像 VGG 模型,是很大的模型,它的參數(shù)個(gè)數(shù),也就是權(quán)重的個(gè)數(shù),是衡量這個(gè)模型復(fù)雜性的一個(gè)重要指標(biāo)。
VGG16模型有一億多個(gè)參數(shù)。為了在移動(dòng)平臺(tái)能夠運(yùn)行,業(yè)界做了大量的工作,這些工作包括把這個(gè)模型做剪枝、壓縮和重新訓(xùn)練模型等,也有通過(guò)更復(fù)雜的技術(shù),比如通過(guò)強(qiáng)化學(xué)習(xí)來(lái)達(dá)成一個(gè)更小的模型。這些方法都有一些潛在的問(wèn)題,比如最終出來(lái)的結(jié)構(gòu)不夠簡(jiǎn)單,計(jì)算量仍然不夠少,或者不易于并行實(shí)現(xiàn)等。
谷歌在這方面也做了很好的工作,最新的結(jié)果是MobileNet v2的 340 萬(wàn)個(gè)參數(shù),不到 VGG16 參數(shù)個(gè)數(shù)的3%,縮小了很多,將近兩個(gè)數(shù)量級(jí),非常小。但是對(duì)我們來(lái)說(shuō),340 萬(wàn)個(gè)參數(shù)的模型還是很大,尤其在移動(dòng)設(shè)備上以軟件實(shí)現(xiàn)仍不是很理想,當(dāng)然我們的任務(wù)有點(diǎn)不一樣,我們是做圖像超分,而上述模型是做做物體識(shí)別的。
基于 ReLU 的 CNN
我們來(lái)看一下基于 ReLU 的 CNN,實(shí)際上是分段線(xiàn)性函數(shù),這個(gè)很容易理解,尤其是當(dāng)stride 為1的時(shí)候,分段線(xiàn)性的映射還是保持的。
為了更好地理解下面的內(nèi)容,我再介紹一個(gè)概念,就是流型。舉個(gè)例子來(lái)說(shuō)流型比較容易理解,比如關(guān)于人臉的圖像,雖然可以是在 1000×1000 個(gè)大的尺寸上,有一百萬(wàn)個(gè)像素點(diǎn),但真正表征人臉不需要一百萬(wàn)個(gè)點(diǎn),一兩百個(gè)參數(shù)就可以,實(shí)際上在比較低維的一個(gè)空間里即可以表征出來(lái),這個(gè)過(guò)程就是從它的背景空間映射到它的參數(shù)空間,或者稱(chēng)為隱空間的過(guò)程,這實(shí)際上是一個(gè)編碼的過(guò)程,是一個(gè)降維處理。
反過(guò)來(lái)從這個(gè)低維空間到高維空間是一個(gè)解碼的過(guò)程,是一個(gè)生成器。一般來(lái)說(shuō)編碼是把數(shù)據(jù)壓縮到更低維的參數(shù)空間,叫隱空間。存在一個(gè)映射,從高維流型到低維的空間之間,正映射和逆映射都是連續(xù)的,這就是同胚映射。我們想隱空間這個(gè)低維的參數(shù)空間里做些操作。
剛才說(shuō)過(guò)深度學(xué)習(xí)實(shí)際上是一個(gè)分段線(xiàn)性的映射,它是對(duì)流型的一個(gè)分段線(xiàn)性的逼近,比如這個(gè)模型比較簡(jiǎn)單的時(shí)候,它是以?xún)蓷l線(xiàn)來(lái)逼近,模型復(fù)雜的時(shí)候以四條線(xiàn)來(lái)逼近,這時(shí)逼近的程度更高。實(shí)際上一個(gè)更復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)能產(chǎn)生的效果更好,逼近的精度更高,當(dāng)然它的復(fù)雜度也更高。
另外,不同的逼近方法達(dá)到的效果也不一樣,換一個(gè)方式可能逼近的更好,實(shí)際上不同的權(quán)重對(duì)應(yīng)不同的映射,對(duì)應(yīng)不同的逼近效果,我們訓(xùn)練的過(guò)程就是在找一個(gè)最優(yōu)化的逼近,至少是找一個(gè)局部最優(yōu)化的逼近過(guò)程,使得它達(dá)到的效果某種意義上是最優(yōu)的。精度是由逼近的質(zhì)量來(lái)衡量的。
我把我們的結(jié)果報(bào)告一下,最后做到了只有萬(wàn)級(jí)的參數(shù)個(gè)數(shù),比谷歌的用于移動(dòng)設(shè)備的 MobileNet v2 模型還小了兩個(gè)多數(shù)量級(jí)。聲網(wǎng)模型不到它的 1%,進(jìn)一步小了非常多。通常模型變小之后會(huì)有一個(gè)問(wèn)題,GAN 本身隱含的問(wèn)題就變得更突出,模式坍塌就是其中一個(gè)問(wèn)題。
模式坍塌
模式坍塌是什么問(wèn)題?生成器很難學(xué)習(xí)多模態(tài)的分布。舉一個(gè)在圓環(huán)上的八個(gè)高斯分布的例子。生成器想學(xué)習(xí)這個(gè)分布,但是在一個(gè)簡(jiǎn)單模型的訓(xùn)練的過(guò)程及最后結(jié)果都只能收斂到其中一個(gè)高斯分布。用在實(shí)際應(yīng)用的例子上,比如生成數(shù)字,我們期望它像第一行圖像中這樣能生成 0-9 的各個(gè)數(shù)字,但是很容易它就像第二行這樣只能生成其中一個(gè)數(shù)字,比如總生成 1 或者某個(gè)含混難辯的數(shù)字,因?yàn)?1 容易在判別器那里蒙混過(guò)關(guān),這雖然做對(duì)了,但是它生成不了別的數(shù)字,用處不大。
如何解決這個(gè)問(wèn)題或者緩解這個(gè)問(wèn)題呢?我們做了一系列的工作,簡(jiǎn)單來(lái)說(shuō),我們加了一些約束,加了對(duì)局域的約束,加了對(duì)切空間的約束,再加了對(duì)隱空間的優(yōu)化,接下來(lái)不能一一講述,就簡(jiǎn)單講解一下對(duì)隱空間的優(yōu)化。
隱空間的優(yōu)化
剛才我提到過(guò)DNN 實(shí)際上是把一個(gè)流型往隱空間或者參數(shù)空間做映射。一個(gè)圖像通常被編碼到一個(gè)低維的空間,就是隱空間。這里給大家做一個(gè)直觀的解釋?zhuān)覀冎苯釉谶@個(gè)編碼空間,即隱空間里來(lái)做恢復(fù),先在隱空間里均勻的去采樣一些點(diǎn),然后再通過(guò)這些點(diǎn)輸入到生成器,生成器重構(gòu)出來(lái)的圖像點(diǎn),把它們重疊到原來(lái)的圖像上,有些恢復(fù)出來(lái)的點(diǎn)很密,但是有些地方比如頭部臉部就很稀疏,這就意味著頭部的恢復(fù)很差。生成器坍塌到一個(gè)局部最優(yōu),這個(gè)重構(gòu)是很難或者不太容易得到很好的結(jié)果。當(dāng)然我們可以更密集的取些采樣點(diǎn),最終頭部也被覆蓋到,但是代價(jià)會(huì)很大。
我們可以把這個(gè)隱空間先做優(yōu)化,再在上面做均勻抽樣,再把它輸入進(jìn)生成器,生成器出來(lái),抽樣點(diǎn)還是這么多,重構(gòu)圖像出來(lái)的重構(gòu)點(diǎn)也是均勻的,也就是從這個(gè)點(diǎn)云里出來(lái)的東西也是均勻的。
打個(gè)比方,我們拿一張平的紙,使用各種不規(guī)則的方式任意折疊起來(lái)很多遍,你被要求在折疊起來(lái)的一團(tuán)紙上抽取一定的采樣點(diǎn),然后把紙展開(kāi)恢復(fù)平整后要求這些采樣點(diǎn)是均勻的。這個(gè)很難,一般做不到,除非用暴力取足夠多的點(diǎn)出來(lái)。但那樣復(fù)雜性很高,與我們的目標(biāo)相悖。我們想同時(shí)控制復(fù)雜性又控制效果。我們把類(lèi)似的隱空間優(yōu)化應(yīng)用到了我們的模型訓(xùn)練里。因?yàn)槲覀冏罱K模型的參數(shù)非常小,所以功耗在 iPhone7 上很少,另外手機(jī)也不會(huì)發(fā)熱。效果基本上我們能做到,比如說(shuō)一個(gè) 360P 的視頻,出來(lái)的效果能夠達(dá)到在 720P 的效果,能得到一個(gè)高清的效果。
我們未來(lái)還想從數(shù)學(xué)更多的理解一些深度網(wǎng)絡(luò),對(duì)某個(gè)點(diǎn)、某個(gè)問(wèn)題上能夠用數(shù)學(xué)的方式來(lái)描述,來(lái)進(jìn)一步提高圖像清晰度。這是我們未來(lái)要做的工作,謝謝大家。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47535瀏覽量
239354 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121357 -
AI算法
+關(guān)注
關(guān)注
0文章
252瀏覽量
12305
原文標(biāo)題:如何為實(shí)時(shí)音視頻設(shè)計(jì)小且優(yōu)的深度學(xué)習(xí)模型?
文章出處:【微信號(hào):shengwang-agora,微信公眾號(hào):聲網(wǎng)Agora】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論