1、引子
深度神經網絡(DNNs)最近在圖像分類或語音識別等復雜機器學習任務中表現(xiàn)出的優(yōu)異性能令人印象深刻。
在本文中,我們將了解深度神經網絡的基礎知識和三個最流行神經網絡:多層神經網絡(MLP),卷積神經網絡(CNN)和遞歸神經網絡(RNN)。
2、什么是深度神經網絡
機器學習是一門多領域交叉學科,專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。如果論及哪一個機器學習的領域最為熱門,非人工智能莫屬,這就是深度學習。深度學習框架又名深度神經網絡,一個復雜的模式識別系統(tǒng),在過去的幾十年里,機器學習給我們的日常生活帶來了巨大的影響,包括高效的網絡搜索、自動駕駛系統(tǒng)、計算機視覺和光學字符識別。
深度神經網絡模型已經成為機器學習和人工智能的有力工具。深度神經網絡(DNN)的輸入層和輸出層之間有多層的人工神經網絡(ANN)。
深層神經網絡的迅速發(fā)展應用致使語音識別錯誤率上較傳統(tǒng)語音識別方法錯誤率減少30%(20年來最大降幅),同時也大幅削減了圖像識別的錯誤率,自2011年以來深度學習圖像識別的錯誤率從26%到3.5%,而人類是5%。
3、深度神經網絡的基本原理
深度神經網絡模型最初是基于神經生物學的啟發(fā)。生物神經元通過與樹突的突觸接觸接收多個信號,并通過軸突發(fā)送單一的動作電位流。通過對輸入模式進行分類,可以降低多個輸入的復雜性。受這種輸入輸出方式的啟發(fā),人工神經網絡模型由組合多個輸入和單一的輸出單元組成。神經網絡以模擬人類大腦的功能為目標,并基于一個簡單的人工神經元:輸入信號的加權和的非線性函數(shù)(如max(0, value))。這些偽神經元被聚合成層,一層的輸出成為序列中下一層的輸入。
4、深度神經網絡的“深”
深度神經網絡在神經網絡中采用了深度結構?!吧睢笔侵冈趯哟螖?shù)和單層單元數(shù)的深兼具較高復雜性的功能。云計算中的大型數(shù)據(jù)集可以通過使用額外的和更大的層來捕獲更高級數(shù)據(jù)模式來構建更精確的模型。神經網絡的兩個階段被稱為訓練(或學習)和推斷(或預測),它們指的是發(fā)展和生產。開發(fā)人員選擇神經網絡的層數(shù)和類型,訓練確定權值。
5、目前流行的深度神經網絡有三種
5.1 多層感知器(MLP)
多層感知器(MLP)是一類前饋人工神經網絡(ANN)。MLPs模型是最基本的深度神經網絡,其將輸入的多個數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上,由一系列全連接層組成。每一層都是一組非線性函數(shù),它們是前一層所有輸出(完全連通)的加權和。 功能函數(shù):
5.2 卷積神經網絡(CNN)
卷積神經網絡(CNN,或ConvNet)是另一類深度神經網絡。CNN最常用于計算機視覺。給定一系列來自現(xiàn)實世界的圖像或視頻,AI系統(tǒng)利用CNN學習自動提取這些輸入的特征來完成特定的任務,如圖像分類、人臉認證、圖像語義分割等。
與MLP中的完全連接層不同,在CNN模型中,一個或多個卷積層通過執(zhí)行卷積操作從輸入中提取簡單特征。每一層都是一組非線性函數(shù),這些函數(shù)的加權和位于前一層輸出的空間附近子集的不同坐標上,允許權重被重用。
應用各種卷積濾波器,CNN模型可以高水平準確地捕獲輸入數(shù)據(jù),使其成為最受歡迎的計算機視覺應用技術,如圖像分類(例如,AlexNet, VGG網絡,ResNet, MobileNet)和目標檢測(例如,F(xiàn)ast R-CNN, Mask R-CNN, YOLO, SSD)。 AlexNet。在圖像分類方面,作為2012年第一個贏得ImageNet挑戰(zhàn)賽的CNN, AlexNet由5個卷積層和3個全連接層組成。AlexNet需要6100萬個權重和7.24億個mac(乘法加法計算)來對大小為227×227的圖像進行分類。
VGG-16。為了達到更高的精度,vg -16被訓練為一個更深層次的16層結構,由13個卷積層和3個全連通層組成,需要1.38億權值和15.5G mac對大小為224×224的圖像進行分類。
GoogleNet。為了提高準確性,同時減少DNN推理的計算,GoogleNet引入了一個由不同大小的過濾器組成的初始模塊。google et比vg -16具有更好的精度性能,而處理相同大小的圖像只需要700萬權重和1.43G mac。
ResNet。最新的研究成果ResNet使用了“快捷”結構,達到了人類平均水平的準確率,前5名的錯誤率低于5%?!敖輳健蹦K用于解決訓練過程中的梯度消失問題,使訓練具有更深結構的DNN模型成為可能。
近年來CNN的準確率和性能逐漸提高,應用于人們人工智能視覺任務的,超過了人類視覺的平均水平錯誤率低于5%。
5.3遞歸神經網絡(RNN)遞歸神經網絡(RNN)是另一類使用順序數(shù)據(jù)輸入的人工神經網絡。RNN是用來解決序列輸入數(shù)據(jù)的時間序列問題的。 RNN的輸入由當前輸入和之前的樣本組成。因此,節(jié)點之間的連接沿時間序列形成有向圖。RNN中的每個神經元都有一個內部存儲器,它保存著來自前一個樣本的計算信息。
RNN模型在處理輸入長度不固定的數(shù)據(jù)方面具有優(yōu)勢,因此在自然語言處理中得到了廣泛的應用。人工智能的任務是建立一個能夠理解人類說的自然語言的系統(tǒng),例如自然語言建模、單詞嵌入和機器翻譯。
在RNN中,每一層都是輸出和前一層狀態(tài)的加權和的非線性函數(shù)集合。RNN的基本單元稱為“Cell”,每個Cell層由一系列的Cell組成,層層傳遞處理使RNN模型能夠進行順序處理。
6、深度神經網絡應用
深度學習現(xiàn)在已經應用到生活各領域:
1.深度學習應用在音視頻的識別上,幾乎所有的商用語音識別都是深度學習來完成的,如自然語言理解方面,主要是使用一種叫做LSTM的深度學習方法。
2.深度學習應用于圖像識別,目前識別準確率已經超越人類,深度學習成了圖像識別的標配。其中圖像識別中,應用最廣的是人臉識別。
總之深度神經網絡已經深入便捷了人們生活,各類自動駕駛車輛,各種類型的人工智能機器人,智能回答,智能翻譯,天氣預報,股票預測,人臉比對,聲紋比對,等其他許多有趣的應用,比如智能插畫,自動作詩,自動寫作文,等都可以通過深度學習來完成深度神經網絡。
審核編輯 :李倩
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100891 -
云計算
+關注
關注
39文章
7838瀏覽量
137542 -
數(shù)據(jù)集
+關注
關注
4文章
1208瀏覽量
24737 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13581
發(fā)布評論請先 登錄
相關推薦
評論