一本无码在线中文字幕DVD,中文字幕avv

Face ID 的興起帶動了一波面部識別技術(shù)熱潮。本文將介紹如何使用 OpenCV、Python 和深度學(xué)習(xí)在圖像和視頻中實現(xiàn)面部識別，以基于深度識別的面部嵌入，實時執(zhí)行且達到高準(zhǔn)確度。

以下內(nèi)容由 CSDN 翻譯：

想知道怎樣用OpenCV、Python和深度學(xué)習(xí)進行面部識別嗎？

這篇文章首先將簡單介紹下基于深度學(xué)習(xí)的面部識別的工作原理，以及“深度度量學(xué)習(xí)”（deep metric learning）的概念。接下來我會幫你安裝好面部識別需要的庫。最后我們會發(fā)現(xiàn)，這個面部識別的實現(xiàn)能夠?qū)崟r運行。

▌理解深度學(xué)習(xí)面部識別嵌入

那么，基于深度學(xué)習(xí)的面部識別是怎樣工作的呢？秘密就是一種叫做“深度度量學(xué)習(xí)”的技術(shù)。

如果你有深度學(xué)習(xí)的經(jīng)驗，你應(yīng)該知道，通常情況下訓(xùn)練好的網(wǎng)絡(luò)會接受一個輸入圖像，并且給輸入的圖像生成一個分類或標(biāo)簽。

而在這里，網(wǎng)絡(luò)輸出的并不是單一的標(biāo)簽（也不是圖像中的坐標(biāo)或邊界盒），而是輸出一個表示特征向量的實數(shù)。

對于dlib面部識別網(wǎng)絡(luò)來說，輸出的特征向量為128維（即一個由128個實數(shù)組成的列表），用來判斷面部。網(wǎng)絡(luò)的訓(xùn)練是通過三元組進行的：

圖1：利用深度度量學(xué)習(xí)進行面部識別需要“三元組訓(xùn)練”。三元組包括三張不同的面部圖像，其中兩張屬于同一個人。神經(jīng)網(wǎng)絡(luò)為每張面部圖像生成一個128維向量。對于同一個人的兩張面部圖像，我們調(diào)整神經(jīng)網(wǎng)絡(luò)使得輸出向量的距離度量盡可能接近。圖片來源：Adam Geitgey的“Machine Learning is Fun”博客（https://medium.com/@ageitgey/machine-learning-is-fun-part-4-modern-face-recognition-with-deep-learning-c3cffc121d78）

這里我們需要給網(wǎng)絡(luò)提供三張圖片：

其中兩張圖片是同一個人的面部；第三張圖片是從數(shù)據(jù)集中取得的隨機面部圖片，并且保證與另外兩張圖片不是同一個人。以圖1為例，這里我們用了三張圖片，一張是Chad Smith，兩張是Will Ferrell。

網(wǎng)絡(luò)會測試這些面部圖片，并為每張圖片生成128維嵌入（embedding，即qualification）。

接下來，基本思路就是調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重，使得兩張Will Ferrell的測量結(jié)果盡量接近，而Chad Smith的測量結(jié)果遠離。

我們的面部識別網(wǎng)絡(luò)的架構(gòu)基于He等人在《Deep Residual Learning for Image Recognition》（https://arxiv.org/abs/1512.03385）中提出的ResNet-34，但層數(shù)較少，而且過濾器的數(shù)量減少了一半。

網(wǎng)絡(luò)本身由Davis King（https://www.pyimagesearch.com/2017/03/13/an-interview-with-davis-king-creator-of-the-dlib-toolkit/）在大約300萬張圖片上訓(xùn)練。在Labeled Faces in the Wild（LFW）（http://vis-www.cs.umass.edu/lfw/）數(shù)據(jù)集上與其他方法相比，該網(wǎng)絡(luò)的準(zhǔn)確度達到了99.38%。

Davis King（dlib的作者）和Adam Geitgey（https://adamgeitgey.com/，我們即將用到的face_recognition模塊的作者）都有文章介紹了基于深度學(xué)習(xí)的面部識別的工作原理：

High Quality Face Recognition with Deep Metric Learning（Davis，http://blog.dlib.net/2017/02/high-quality-face-recognition-with-deep.html）

Modern Face Recognition with Deep Learning（ Adam，https://medium.com/@ageitgey/machine-learning-is-fun-part-4-modern-face-recognition-with-deep-learning-c3cffc121d78）

強烈建議閱讀以上文章，以深入了解深度學(xué)習(xí)面部嵌入的工作原理。

▌安裝面部識別庫

為了用Python和OpenCV吸納面部識別，我們需要安裝一些庫：

dlib（http://dlib.net/）；

face_recognition（https://github.com/ageitgey/face_recognition）。

由Davis King維護的dlib庫包含了“深度度量學(xué)習(xí)”的實現(xiàn)，用來在實際的識別過程中構(gòu)建面部嵌入。

Adam Geitgey創(chuàng)建的face_recognition庫則封裝了dlib的面部識別功能，使之更易用。

我假設(shè)你的系統(tǒng)上已經(jīng)裝好了OpenCV。如果沒有也不用擔(dān)心，可以看看我的OpenCV安裝指南一文（https://www.pyimagesearch.com/opencv-tutorials-resources-guides/），選擇適合你的系統(tǒng)的指南即可。

這里我們來安裝dlib和face_recognition庫。

注意：下面的安裝過程需要在Python虛擬環(huán)境中進行。我強烈推薦使用虛擬環(huán)境來隔離項目，這是使用Python的好習(xí)慣。如果你看了我的OpenCV安裝指南，并且安裝了virtualenv和virtualenvwrapper，那么只要在安裝dlib和face_recognition之前執(zhí)行workon命令即可。

安裝沒有GPU支持的dlib

如果你沒有GPU，可以用pip安裝dlib（參考這篇指南：https://www.pyimagesearch.com/2018/01/22/install-dlib-easy-complete-guide/）。

$workon#optional$pipinstalldlib

或者從源代碼進行編譯：

$workon#optional$gitclonehttps://github.com/davisking/dlib.git$cddlib$mkdirbuild$cdbuild$cmake..-DUSE_AVX_INSTRUCTIONS=1$cmake--build.$cd..$pythonsetup.pyinstall--yesUSE_AVX_INSTRUCTIONS

安裝有GPU支持的dlib（可選）

如果你有兼容CUDA的GPU，那么可以安裝有GPU支持的dlib，這樣面部識別能更快、更精確。

我建議從源代碼安裝dlib，這樣可以更精細地控制安裝過程：

$workon#optional$gitclonehttps://github.com/davisking/dlib.git$cddlib$mkdirbuild$cdbuild$cmake..-DDLIB_USE_CUDA=1-DUSE_AVX_INSTRUCTIONS=1$cmake--build.$cd..$pythonsetup.pyinstall--yesUSE_AVX_INSTRUCTIONS--yesDLIB_USE_CUDA

安裝face_recognition包

face_recognition模塊只需簡單地使用pip命令即可安裝：

$workon#optional$pipinstallface_recognition

安裝imutlis

我們還需要imutils包提供一些遍歷的函數(shù)。在Python虛擬環(huán)境中使用pip即可：

$workon#optional$pipinstallimutils

▌面部識別數(shù)據(jù)集

圖2：利用Python和Bing圖像搜索API自動創(chuàng)建的面部識別數(shù)據(jù)集，圖中顯示的是電影侏羅紀(jì)公園的六個角色。

1993年的《侏羅紀(jì)公園》是我最喜歡的電影，為了紀(jì)念最新上映的《侏羅紀(jì)世界：失落王國》，我們將使用電影中的一些角色進行面部識別：

Alan Grant，古生物學(xué)家（22張圖像）

Clair Dearing，公園管理人（53張圖像）

Ellie Sattler，古生物學(xué)家（31張圖像）

Ian Malcolm，數(shù)學(xué)家（41張圖像）

John Hammond，商人，侏羅紀(jì)公園所有者（36張圖像）

Owen Grady，恐龍研究學(xué)者（35張圖像）

這個數(shù)據(jù)集只需要30分鐘就可以建好，參見我的文章《怎樣（快速）建立深度學(xué)習(xí)圖像數(shù)據(jù)集》（https://www.pyimagesearch.com/2018/04/09/how-to-quickly-build-a-deep-learning-image-dataset/）。

有了這個數(shù)據(jù)集，我們可以：

為數(shù)據(jù)集中的每張圖像建立128維嵌入；

利用這些嵌入，從圖像和視頻中識別每個角色的面部。

▌面部識別項目結(jié)構(gòu)

項目結(jié)構(gòu)可以參考下面的tree命令的輸出結(jié)果：

$tree--filelimit10--dirsfirst.├──dataset│├──alan_grant[22entries]│├──claire_dearing[53entries]│├──ellie_sattler[31entries]│├──ian_malcolm[41entries]│├──john_hammond[36entries]│└──owen_grady[35entries]├──examples│├──example_01.png│├──example_02.png│└──example_03.png├──output│└──lunch_scene_output.avi├──videos│└──lunch_scene.mp4├──search_bing_api.py├──encode_faces.py├──recognize_faces_image.py├──recognize_faces_video.py├──recognize_faces_video_file.py└──encodings.pickle10directories,11files

該項目有4個頂層目錄：

dataset/：包含六個角色的面部圖像，用角色名組織到各個子目錄中；

examples/：包含三個不屬于該數(shù)據(jù)集的測試圖像；

output/：存儲經(jīng)過面部識別處理后的視頻，上面有我生成的一個視頻，來自于原版《侏羅紀(jì)公園》電影的午飯場景；

videos/：輸入視頻存放于該文件夾中，該文件夾也包含了尚未經(jīng)過面部識別的“午飯場景”的視頻。

根目錄下還有6個文件：

search_bing_api.py：第一步就是建立數(shù)據(jù)集（我已經(jīng)幫你做好了）。關(guān)于利用Bing API建立數(shù)據(jù)集的具體方法請參考我這篇文章：https://www.pyimagesearch.com/2018/04/09/how-to-quickly-build-a-deep-learning-image-dataset/；

encode_faces.py：該腳本用來進行面部編碼（128維向量）；

recognize_faces_image.py：基于數(shù)據(jù)集生成的編碼，對單張圖片進行面部識別；

recognize_faces_video.py：對來自攝像頭的實時視頻流進行面部識別并輸出視頻文件；

recognize_faces_video_file.py：對硬盤上保存的視頻文件進行面部識別，并輸出處理后的視頻文件。本文不再討論該腳本，因為它的基本結(jié)構(gòu)與上面識別視頻流的腳本相同；

encodings.pickle：該腳本將encode_faces.py生成的面部識別編碼序列化并保存到硬盤上。

用search_bing_api.py創(chuàng)建好圖像數(shù)據(jù)集之后，就可以運行encode_faces.py來創(chuàng)建嵌入了。

接下來我們將運行識別腳本來進行面部識別。

▌用OpenCV和深度學(xué)習(xí)對面部進行編碼

圖3：利用深度學(xué)習(xí)和Python進行面部識別。對每一個面部圖像，用face_recognition模塊的方法生成一個128維實數(shù)特征向量。

在識別圖像和視頻中的面部之前，我們首先需要在訓(xùn)練集中識別面部。要注意的是，我們并不是在訓(xùn)練網(wǎng)絡(luò)——該網(wǎng)絡(luò)已經(jīng)在300萬圖像的訓(xùn)練集上訓(xùn)練過了。

當(dāng)然我們可以從頭開始訓(xùn)練網(wǎng)絡(luò)，或者微調(diào)已有模型的權(quán)重，但那就超出了這個項目的范圍。再說，你需要巨量的圖像才能從頭開始訓(xùn)練網(wǎng)絡(luò)。

相反，使用預(yù)先訓(xùn)練好的網(wǎng)絡(luò)來給訓(xùn)練集中的218張面部圖像建立128維嵌入更容易些。

然后，在分類過程中，只需利用簡單的k-NN模型，加上投票，即可確定最終的面部分類，也可以使用其他經(jīng)典機器學(xué)習(xí)模型。

現(xiàn)在打開本文“下載”鏈接中的encode_faces.py文件，看看是如何構(gòu)建面部嵌入的：

1#importthenecessarypackages2fromimutilsimportpaths3importface_recognition4importargparse5importpickle6importcv27importos

首先需要導(dǎo)入必需的包。這個腳本需要事先安裝imutils、face_recognition和OpenCV。請翻到前面“安裝面部識別庫”一節(jié)確保你已經(jīng)安裝了必須的庫。

首先用argparse處理運行時傳遞的命令行參數(shù)：

1#constructtheargumentparserandparsethearguments2ap=argparse.ArgumentParser()3ap.add_argument("-i","--dataset",required=True,4help="pathtoinputdirectoryoffaces+images")5ap.add_argument("-e","--encodings",required=True,6help="pathtoserializeddboffacialencodings")7ap.add_argument("-d","--detection-method",type=str,default="cnn",8help="facedetectionmodeltouse:either`hog`or`cnn`")9args=vars(ap.parse_args())

如果你之前沒有用過PyImageSearch，你可以多讀讀我的博客文章，就明白上面這段代碼了。首先利用argparse分析命令行參數(shù)，在命令行上執(zhí)行Python程序時，可以在終端中給腳本提供格外的信息。第2-9行不需要做任何改動，它們只是為了分析終端上的輸入。如果不熟悉這些代碼，可以讀讀我這篇文章：https://www.pyimagesearch.com/2018/03/12/python-argparse-command-line-arguments/。

下面逐一列出參數(shù)：

--dataset：數(shù)據(jù)集的路徑（利用search_bing_api.py創(chuàng)建的數(shù)據(jù)集）；

--encodings：面部編碼將被寫到該參數(shù)所指的文件中；

--detection-method：首先需要檢測到圖像中的面部，才能對其進行編碼。兩種面部檢測方法為hog或cnn，因此該參數(shù)只接受這兩個值。

現(xiàn)在參數(shù)已經(jīng)定義好了，我們可以獲得數(shù)據(jù)集文件的路徑了（同時進行兩個初始化）：

1#grabthepathstotheinputimagesinourdataset2print("[INFO]quantifyingfaces...")3imagePaths=list(paths.list_images(args["dataset"]))45#initializethelistofknownencodingsandknownnames6knownEncodings=[]7knownNames=[]

行3用輸入數(shù)據(jù)集的路徑，建立了一個列表imagePaths。

我們還需要在循環(huán)開始之前初始化兩個列表，分別是knownEncodings和knownNames。這兩個列表分別包含面部編碼數(shù)據(jù)和數(shù)據(jù)集中相應(yīng)人物的名字（行6和行7）。

現(xiàn)在可以依次循環(huán)侏羅紀(jì)公園中的每個角色了！

1#loopovertheimagepaths 2for(i,imagePath)inenumerate(imagePaths): 3#extractthepersonnamefromtheimagepath 4print("[INFO]processingimage{}/{}".format(i+1, 5len(imagePaths))) 6name=imagePath.split(os.path.sep)[-2] 7 8#loadtheinputimageandconvertitfromBGR(OpenCVordering) 9#todlibordering(RGB)10image=cv2.imread(imagePath)11rgb=cv2.cvtColor(image,cv2.COLOR_BGR2RGB)

這段代碼會循環(huán)218次，處理數(shù)據(jù)集中的218張面部圖像。行2在所有圖像路徑中進行循環(huán)。

接下來，行6要從imagePath中提取人物的名字（因為子目錄名就是人物名）。

然后將imagePath傳遞給cv2.imread（行10），讀取圖像保存到image中。

OpenCV中的顏色通道排列順序為BGR，但dlib要求的順序為RGB。由于face_recognition模塊使用了dlib，因此在繼續(xù)下一步之前，行11轉(zhuǎn)換了顏色空間，并將轉(zhuǎn)換后的新圖像保存在rgb中。

接下來定位面部位置并計算編碼：

1#detectthe(x,y)-coordinatesoftheboundingboxes 2#correspondingtoeachfaceintheinputimage 3boxes=face_recognition.face_locations(rgb, 4model=args["detection_method"]) 5 6#computethefacialembeddingfortheface 7encodings=face_recognition.face_encodings(rgb,boxes) 8 9#loopovertheencodings10forencodinginencodings:11#addeachencoding+nametooursetofknownnamesand12#encodings13knownEncodings.append(encoding)14knownNames.append(name)

這段代碼是最有意思的部分！

每次循環(huán)都會檢測一個面部圖像（或者一張圖像中有多個面部，我們假設(shè)這些面部都屬于同一個人，但如果你使用自己的圖像的話，這個假設(shè)有可能不成立，所以一定要注意）。

比如，假設(shè)rgb里的圖像是Ellie Sattler的臉。

行3和4查找面部位置，返回一個包含了許多方框的列表。我們給face_recognition.face_locations方法傳遞了兩個參數(shù)：

rgb：RGB圖像；

model：cnn或hog（該值包含在命令行參數(shù)字典中，賦給了detection_method鍵）。CNN方法比較準(zhǔn)確，但速度較慢；HOG比較快，但不太準(zhǔn)確。

然后，在行7，我們要將Ellie Sattler的面部的邊界盒boxes轉(zhuǎn)換成128個數(shù)字。這個步驟就是將面部編碼成向量，可以通過face_recognition.face_encodings方法實現(xiàn)。

接下來秩序?qū)llie Sattler的encoding和name添加到恰當(dāng)?shù)牧斜碇校╧nownEncodings或knownNames）。

然后對數(shù)據(jù)集中所有218張圖像進行這一步驟。

提取這些編碼encodings的目的就是要在另一個腳本中利用它們進行面部識別。現(xiàn)在來看看怎么做：

1#dumpthefacialencodings+namestodisk2print("[INFO]serializingencodings...")3data={"encodings":knownEncodings,"names":knownNames}4f=open(args["encodings"],"wb")5f.write(pickle.dumps(data))6f.close()

行3構(gòu)建了一個字典，它包含encodings和names兩個鍵。

行4-6將名字和編碼保存到硬盤中，供以后使用。

怎樣才能在終端上運行encode_faces.py腳本？

要創(chuàng)建面部嵌入，可以從終端執(zhí)行以下命令：

1$pythonencode_faces.py--datasetdataset--encodingsencodings.pickle 2[INFO]quantifyingfaces... 3[INFO]processingimage1/218 4[INFO]processingimage2/218 5[INFO]processingimage3/218 6... 7[INFO]processingimage216/218 8[INFO]processingimage217/218 9[INFO]processingimage218/21810[INFO]serializingencodings...11$ls-lhencodings*12-rw-r--r--@1adrianstaff234KMay2913:03encodings.pickle

從輸出中課件，它生成了個名為encodings.pickle的文件，該文件包含了數(shù)據(jù)集中每個面部圖像的128維面部嵌入。

在我的Titan X GPU上，處理整個數(shù)據(jù)集花費了一分鐘多一點，但如果只使用CPU，就要做好等待很久的心理準(zhǔn)備。

在我的Macbook Pro上（沒有GPU），編碼218張圖像需要21分20秒。

如果你有GPU并且編譯dlib時選擇了支持GPU，那么速度應(yīng)該會快得多。

▌識別圖像中的面部

圖4：John Hammond的面部識別，使用了Adam Geitgey的深度學(xué)習(xí)Python模塊face_recognition。

現(xiàn)在已經(jīng)給數(shù)據(jù)集中的每張圖像建好了128維面部嵌入，我們可以用OpenCV、Python和深度學(xué)習(xí)進行面部識別了。

打開recognize_faces_image.py，插入以下代碼（或者從本文的”下載“部分下載代碼和相關(guān)的圖像）：

1#importthenecessarypackages 2importface_recognition 3importargparse 4importpickle 5importcv2 6 7#constructtheargumentparserandparsethearguments 8ap=argparse.ArgumentParser() 9ap.add_argument("-e","--encodings",required=True,10help="pathtoserializeddboffacialencodings")11ap.add_argument("-i","--image",required=True,12help="pathtoinputimage")13ap.add_argument("-d","--detection-method",type=str,default="cnn",14help="facedetectionmodeltouse:either`hog`or`cnn`")15args=vars(ap.parse_args())

這段代碼首先導(dǎo)入了必需的包（行2-5）。face_recognition模塊完成主要工作，OpenCV負責(zé)加載圖像、轉(zhuǎn)換圖像，并顯示處理之后的圖像。

行8-15負責(zé)分析三個命令行參數(shù)：

--encodings：包含面部編碼的pickle文件的路徑；

--image：需要進行面部識別的圖像；

--detection-method：這個選項應(yīng)該很熟悉了。可以根據(jù)系統(tǒng)的能力，選擇hog或cnn之一。追求速度的話就選擇hog，追求準(zhǔn)確度就選擇cnn。

注意：在樹莓派上必須選擇hog，因為內(nèi)存容量不足以運行CNN方法。

接下來要加載計算好的編碼和面部名稱，然后為輸入圖像構(gòu)建128維面部編碼：

1#loadtheknownfacesandembeddings 2print("[INFO]loadingencodings...") 3data=pickle.loads(open(args["encodings"],"rb").read()) 4 5#loadtheinputimageandconvertitfromBGRtoRGB 6image=cv2.imread(args["image"]) 7rgb=cv2.cvtColor(image,cv2.COLOR_BGR2RGB) 8 9#detectthe(x,y)-coordinatesoftheboundingboxescorresponding10#toeachfaceintheinputimage,thencomputethefacialembeddings11#foreachface12print("[INFO]recognizingfaces...")13boxes=face_recognition.face_locations(rgb,14model=args["detection_method"])15encodings=face_recognition.face_encodings(rgb,boxes)1617#initializethelistofnamesforeachfacedetected18names=[]

行3從硬盤加載pickle過的編碼和名字數(shù)據(jù)。稍后在實際的面部識別步驟中會用到這些數(shù)據(jù)。

然后，行6和行7加載輸入圖像image，并轉(zhuǎn)換其顏色通道順序（同encode_faces.py腳本一樣），保存到rgb中。

接下來，行13-15繼續(xù)檢測輸入圖像中的所有面部，并計算它們的128維encodings（這些代碼也應(yīng)該很熟悉了）。

現(xiàn)在應(yīng)該初始化一個列表names，用來保存每個檢測的面部。該列表將在下一步填充。

現(xiàn)在遍歷面部編碼encodings列表：

1#loopoverthefacialembeddings2forencodinginencodings:3#attempttomatcheachfaceintheinputimagetoourknown4#encodings5matches=face_recognition.compare_faces(data["encodings"],6encoding)7name="Unknown"

行2開始遍歷根據(jù)輸入圖像計算出的面部編碼。

接下來見證面部識別的奇跡吧！

在行5和行6，我們嘗試利用face_recognition.compare_faces將輸入圖像中的每個面部（encoding）對應(yīng)到已知的編碼數(shù)據(jù)集（保存在data["encodings"]中）上。

該函數(shù)會返回一個True/False值的列表，每個值對應(yīng)于數(shù)據(jù)集中的一張圖像。對于我們的侏羅紀(jì)公園的例子，數(shù)據(jù)集中有218張圖像，因此返回的列表將包含218個布爾值。

compare_faces函數(shù)內(nèi)部會計算待判別圖像的嵌入和數(shù)據(jù)集中所有面部的嵌入之間的歐幾里得距離。

如果距離位于容許范圍內(nèi)（容許范圍越小，面部識別系統(tǒng)就越嚴格），則返回True，表明面部吻合。否則，如果距離大于容許范圍，則返回False表示面部不吻合。

本質(zhì)上我們用了個更”炫酷“的k-NN模型進行分類。具體的實現(xiàn)細節(jié)可以參考compare_faces的實現(xiàn)（https://github.com/ageitgey/face_recognition/blob/master/face_recognition/api.py#L213）。

最終，name變量會的值就是人的名字。如果沒有任何”投票“，則保持"Unknown"不變（行7）。

根據(jù)matches列表，可以計算每個名字的”投票“數(shù)目（與每個名字關(guān)聯(lián)的True值的數(shù)目），計票之后選擇最適合的人的名字：

1#checktoseeifwehavefoundamatch 2ifTrueinmatches: 3#findtheindexesofallmatchedfacestheninitializea 4#dictionarytocountthetotalnumberoftimeseachface 5#wasmatched 6matchedIdxs=[ifor(i,b)inenumerate(matches)ifb] 7counts={} 8 9#loopoverthematchedindexesandmaintainacountfor10#eachrecognizedfaceface11foriinmatchedIdxs:12name=data["names"][i]13counts[name]=counts.get(name,0)+11415#determinetherecognizedfacewiththelargestnumberof16#votes(note:intheeventofanunlikelytiePythonwill17#selectfirstentryinthedictionary)18name=max(counts,key=counts.get)1920#updatethelistofnames21names.append(name)

如果matches中包含任何True的投票（行2），則需要確定True值在matches中的索引位置。這一步在行6中通過建立一個簡單的matchedIdxs列表實現(xiàn)。對于example_01.png來說，它大概是這個樣子：

1(Pdb)matchedIdxs2[35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,71,72,73,74,75]

然后初始化一個名為counts的字典，其鍵為角色的名字，值是投票的數(shù)量。

接下來遍歷matchedIdxs，統(tǒng)計每個相關(guān)的名字，并在counts增加相應(yīng)的計數(shù)值。counts字典可能是這個樣子（Ian Malcolm高票的情況）：

1(Pdb)counts2{'ian_malcolm':40}

回憶一下我們的數(shù)據(jù)集中只有41張圖片，因此40分并且沒有任何其他投票可以認為非常高了。

取出counts中投票最高的名字，本例中為'ian_malcolm'。

循環(huán)的第二次迭代（由于圖像中有兩個人臉）會取出下面的counts：

1(Pdb)counts2{'alan_grant':5}

盡管這個投票分值較低，但由于這是字典中唯一的人名，所以很可能我們找到了Alan Grant。

注意：這里使用了Python調(diào)試器PDB來檢查counts字典的值。PDB的用法超出了本文的范圍，你可以在Python的文檔頁面（https://docs.python.org/3/library/pdb.html）找到其用法。

如下面的圖5所示，我們正確識別了Ian Malcolm和Alan Grant，所以這一段代碼工作得還不錯。

我們來繼續(xù)循環(huán)每個人的邊界盒和名字，然后將名字畫在輸出圖像上以供展示之用：

1#loopovertherecognizedfaces 2for((top,right,bottom,left),name)inzip(boxes,names): 3#drawthepredictedfacenameontheimage 4cv2.rectangle(image,(left,top),(right,bottom),(0,255,0),2) 5y=top-15iftop-15>15elsetop+15 6cv2.putText(image,name,(left,y),cv2.FONT_HERSHEY_SIMPLEX, 70.75,(0,255,0),2) 8 9#showtheoutputimage10cv2.imshow("Image",image)11cv2.waitKey(0)

行2開始循環(huán)檢測到的面部邊界盒boxes和預(yù)測的names。我們調(diào)用了zip(boxes, names)以創(chuàng)建一個容易進行循環(huán)的對象，每次迭代將得到一個二元組，從中可以提取邊界盒坐標(biāo)和名字。

行4利用邊界盒坐標(biāo)畫一個綠色方框。

我們還利用坐標(biāo)計算了人名文本的顯示位置（行5），并將人名的文本畫在圖像上（行6和行7）。如果邊界盒位于圖像頂端，則將文本移到邊界盒下方（行5），否則文本就被截掉了。

然后顯示圖像，直到按下任意鍵為止（行10和11）。

怎樣運行面部識別的Python腳本？

在終端中，首先用workon命令保證位于正確的Python虛擬環(huán)境中（如果你用了虛擬環(huán)境的話）。

然后運行該腳本，同時至少提供兩個命令行參數(shù)。如果選擇HoG方式，別忘了傳遞--detection-method hog（否則默認會使用深度學(xué)習(xí)檢測方式）。

趕快試試吧！

打開終端并執(zhí)行腳本，用OpenCV和Python進行面部識別：

1$pythonrecognize_faces_image.py--encodingsencodings.pickle2--imageexamples/example_01.png3[INFO]loadingencodings...4[INFO]recognizingfaces...

圖5：Python + OpenCV + 深度學(xué)習(xí)方法識別出了Alan Grant和Ian Malcom的面部。

另一個面部識別的例子：

1$pythonrecognize_faces_image.py--encodingsencodings.pickle2--imageexamples/example_02.png3[INFO]loadingencodings...4[INFO]recognizingfaces...

圖6：用OpenCV和Python進行面部識別。

▌在視頻中進行面部識別

圖7：用Python、OpenCV和深度學(xué)習(xí)在視頻中進行面部識別。

我們已經(jīng)完成了圖像中的面部識別，現(xiàn)在來試試在視頻中進行（實時）面部識別。

關(guān)于性能的重要提示：CNN面部識別器只能在有GPU的情況下實時運行（CPU也可以運行，但視頻會非?？?，實際的幀速率不到0.5FPS）。如果你只有CPU，應(yīng)當(dāng)考慮使用HoG方式（或者甚至采用OpenCV的Haar層疊方式，以后會撰文說明），以獲得較好的速度。

下面的腳本從前面的recognize_faces_image.py腳本中借用了許多代碼。因此我將略過之前介紹過的部分，只說明下視頻部分，以便于理解。

下載好代碼之后，打開recognize_faces_video.py：

1#importthenecessarypackages 2fromimutils.videoimportVideoStream 3importface_recognition 4importargparse 5importimutils 6importpickle 7importtime 8importcv2 910#constructtheargumentparserandparsethearguments11ap=argparse.ArgumentParser()12ap.add_argument("-e","--encodings",required=True,13help="pathtoserializeddboffacialencodings")14ap.add_argument("-o","--output",type=str,15help="pathtooutputvideo")16ap.add_argument("-y","--display",type=int,default=1,17help="whetherornottodisplayoutputframetoscreen")18ap.add_argument("-d","--detection-method",type=str,default="cnn",19help="facedetectionmodeltouse:either`hog`or`cnn`")20args=vars(ap.parse_args())

行2-8導(dǎo)入包，然后行11-20解析命令行參數(shù)。

這里有四個命令行參數(shù)，其中兩個是介紹過的（--encodings和--detection-method）。另外兩個參數(shù)是：

--output：視頻輸出路徑；

--display：指示是否將視頻幀輸出到屏幕的標(biāo)志。1表示顯示到屏幕，0表示不顯示。

然后加載編碼并啟動VideoStream：

1#loadtheknownfacesandembeddings 2print("[INFO]loadingencodings...") 3data=pickle.loads(open(args["encodings"],"rb").read()) 4 5#initializethevideostreamandpointertooutputvideofile,then 6#allowthecamerasensortowarmup 7print("[INFO]startingvideostream...") 8vs=VideoStream(src=0).start() 9writer=None10time.sleep(2.0)

我們利用imutils中的VideoStream類來訪問攝像頭。行8啟動視頻流。如果系統(tǒng)中有多個攝像頭（如內(nèi)置攝像頭和外置USB攝像頭），可以將src=0改成src=1等。

稍后會將處理過的視頻寫到硬盤中，所以這里將writer初始化成None（行9）。sleep兩秒讓攝像頭預(yù)熱。

接下來啟動一個while循環(huán)，開始抓取并處理視頻幀：

1#loopoverframesfromthevideofilestream 2whileTrue: 3#grabtheframefromthethreadedvideostream 4frame=vs.read() 5 6#converttheinputframefromBGRtoRGBthenresizeittohave 7#awidthof750px(tospeedupprocessing) 8rgb=cv2.cvtColor(frame,cv2.COLOR_BGR2RGB) 9rgb=imutils.resize(frame,width=750)10r=frame.shape[1]/float(rgb.shape[1])1112#detectthe(x,y)-coordinatesoftheboundingboxes13#correspondingtoeachfaceintheinputframe,thencompute14#thefacialembeddingsforeachface15boxes=face_recognition.face_locations(rgb,16model=args["detection_method"])17encodings=face_recognition.face_encodings(rgb,boxes)18names=[]

循環(huán)從行2開始，第一步就是從視頻流中抓取一個frame（行4）。

上述代碼中剩下的行8-18基本上與前一個腳本相同，只不過這里處理的是視頻幀，而不是靜態(tài)圖像。基本上就是讀取frame，預(yù)處理，檢測到面部邊界盒boxes，然后給每個邊界盒計算encodings。

接下來遍歷每個找到的面部的encodings：

1#loopoverthefacialembeddings 2forencodinginencodings: 3#attempttomatcheachfaceintheinputimagetoourknown 4#encodings 5matches=face_recognition.compare_faces(data["encodings"], 6encoding) 7name="Unknown" 8 9#checktoseeifwehavefoundamatch10ifTrueinmatches:11#findtheindexesofallmatchedfacestheninitializea12#dictionarytocountthetotalnumberoftimeseachface13#wasmatched14matchedIdxs=[ifor(i,b)inenumerate(matches)ifb]15counts={}1617#loopoverthematchedindexesandmaintainacountfor18#eachrecognizedfaceface19foriinmatchedIdxs:20name=data["names"][i]21counts[name]=counts.get(name,0)+12223#determinetherecognizedfacewiththelargestnumber24#ofvotes(note:intheeventofanunlikelytiePython25#willselectfirstentryinthedictionary)26name=max(counts,key=counts.get)2728#updatethelistofnames29names.append(name)

在這段代碼中依次循環(huán)每個encodings，并嘗試匹配到已知的面部數(shù)據(jù)上。如果找到匹配，則計算數(shù)據(jù)集中每個名字獲得的票數(shù)。然后取出得票最高的名字，就是該面部對應(yīng)的名字。這些代碼與前面的代碼完全相同。

下一段代碼循環(huán)找到的面部并在周圍畫出邊界盒，并顯示人的名字：

1#loopovertherecognizedfaces 2for((top,right,bottom,left),name)inzip(boxes,names): 3#rescalethefacecoordinates 4top=int(top*r) 5right=int(right*r) 6bottom=int(bottom*r) 7left=int(left*r) 8 9#drawthepredictedfacenameontheimage10cv2.rectangle(frame,(left,top),(right,bottom),11(0,255,0),2)12y=top-15iftop-15>15elsetop+1513cv2.putText(frame,name,(left,y),cv2.FONT_HERSHEY_SIMPLEX,140.75,(0,255,0),2)

這些代碼也完全相同，所以我們只關(guān)注與食品有關(guān)的代碼。

我們還可以將視頻幀寫到硬盤中，因此來看看是怎樣使用OpenCV將視頻寫到硬盤中的（https://www.pyimagesearch.com/2016/02/22/writing-to-video-with-opencv/）：

1#ifthevideowriterisNone*AND*wearesupposedtowrite 2#theoutputvideotodiskinitializethewriter 3ifwriterisNoneandargs["output"]isnotNone: 4fourcc=cv2.VideoWriter_fourcc(*"MJPG") 5writer=cv2.VideoWriter(args["output"],fourcc,20, 6(frame.shape[1],frame.shape[0]),True) 7 8#ifthewriterisnotNone,writetheframewithrecognized 9#facestodisk10ifwriterisnotNone:11writer.write(frame)

如果命令行參數(shù)提供了輸出文件路徑（可選），而我們還沒有初始化視頻的writer（行3），就要先初始化之。

行4初始化了VideoWriter_fourcc。FourCC是一種四字符編碼，在這里就是MJPG 四字符編碼。

接下來將對象、輸出路徑、每秒幀數(shù)的目標(biāo)值和幀尺寸傳遞給VideoWriter（行5和6）。

最后，如果writer存在，就繼續(xù)將幀寫到磁盤中。

下面是是否將面部識別視頻幀輸出到屏幕的處理：

1#checktoseeifwearesupposedtodisplaytheoutputframeto2#thescreen3ifargs["display"]>0:4cv2.imshow("Frame",frame)5key=cv2.waitKey(1)&0xFF67#ifthe`q`keywaspressed,breakfromtheloop8ifkey==ord("q"):9break

如果設(shè)置了display命令行參數(shù)，就顯示視頻幀（行4）并檢查退出鍵（"q"）是否被按下（行5-8），如果被按下，則break掉循環(huán)（行9）。

最后是一些清理工作：

1#doabitofcleanup2cv2.destroyAllWindows()3vs.stop()45#checktoseeifthevideowriterpointneedstobereleased6ifwriterisnotNone:7writer.release()

行2-7清理并釋放屏幕、視頻流和視頻writer。

準(zhǔn)備好運行真正的腳本了嗎？

為了演示OpenCV和Python的實時面部識別，打開終端然后執(zhí)行下面的命令：

1$pythonrecognize_faces_video.py--encodingsencodings.pickle2--outputoutput/webcam_face_recognition_output.avi--display13[INFO]loadingencodings...4[INFO]startingvideostream...

下面是我錄制的演示視頻，用來演示面部識別系統(tǒng)：

視頻文件中的面部識別

之前在“面部識別項目結(jié)構(gòu)”一節(jié)中說過，下載的代碼中還有個名為recognize_faces_video_file.py的腳本。

這個腳本實際上和剛才識別攝像頭的腳本相同，只不過它接收視頻文件作為輸入，然后生成輸出視頻文件。

我對原版侏羅紀(jì)公園電影中經(jīng)典的“午飯場景”做了面部識別，在該場景中，演員們圍在桌子旁邊討論他們對于公園的想法：

1$pythonrecognize_faces_video_file.py--encodingsencodings.pickle2--inputvideos/lunch_scene.mp4--outputoutput/lunch_scene_output.avi3--display0

下面是結(jié)果：

注意：別忘了我們的模型是根據(jù)原版電影中的四個角色進行訓(xùn)練的：Alan Grant、Ellie Sattler、Ian Malcolm和John Hammond。模型并沒有針對Donald Gennaro（律師）進行訓(xùn)練，所以他的面部被標(biāo)記為“Unknown”。這個行為是特意的（不是意外），以演示我們的視頻識別系統(tǒng)在識別訓(xùn)練過的面部的同時，會把不認識的面部標(biāo)記為“Unknown”。

下面的視頻中我從《侏羅紀(jì)公園》和《侏羅紀(jì)世界》的預(yù)告片中截取的剪輯：

可見，面部識別和OpenCV代碼的效果很不錯！

▌面部識別代碼能運行在樹莓派上嗎？

從某種意義上，可以。不過有一些限制：

樹莓派內(nèi)存太小，沒辦法運行更準(zhǔn)確的基于CNN的面部檢測器；

因此只能用HOG方式；

即使如此，HOG方式在樹莓派上也太慢，沒辦法用于實時面部檢測；

所以只能用OpenCV的Haar層疊方式。

即使這樣能運行起來，實際的速率也只有1～2FPS，而且就算是這種速率也需要許多技巧。

▌總結(jié)

在這篇指南中，我們學(xué)習(xí)了如何利用OpenCV、Python和深度學(xué)習(xí)來進行面部識別。此外，我們還利用了Davis King的dlib庫和Adam Geitgey的face_recognition模塊，后者對dlib的深度度量學(xué)習(xí)進行了封裝，使得面部識別更容易完成。

我們發(fā)現(xiàn)，我們的面部識別實現(xiàn)同時具有以下兩個特點：準(zhǔn)確，并且能在GPU上實時運行。

最后，希望你喜歡今天的面部識別的文章！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

OpenCV

OpenCV

+關(guān)注

關(guān)注
31

文章
641

瀏覽量
42199
python

python

+關(guān)注

關(guān)注
56

文章
4821

瀏覽量
85773
面部識別

面部識別

+關(guān)注

關(guān)注
1

文章
375

瀏覽量
26965
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5542

瀏覽量
122262

原文標(biāo)題：如何用OpenCV、Python和深度學(xué)習(xí)實現(xiàn)面部識別？

文章出處：【微信號：AI_Thinker，微信公眾號：人工智能頭條】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

深度學(xué)習(xí)視角下的貓狗圖像識別實現(xiàn)

來源：易百納技術(shù)社區(qū)，作者：稗子釀的酒人工智能技術(shù)在圖像識別領(lǐng)域取得了顯著進展，其中基于深度學(xué)習(xí)的圖像分類方法

發(fā)表于 08-15 10:38 ?3931次閱讀

<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>視角下的貓狗<b class='flag-5'>圖像識別</b><b class='flag-5'>實現(xiàn)</b>

深度學(xué)習(xí)在汽車中的應(yīng)用

嵌入式開發(fā)和平臺抽象；在TI硬件上實現(xiàn)用于加速CNN的高度優(yōu)化的內(nèi)核，以及支持從開放框架（如Caffe和TensorFlow）到使用TIDL應(yīng)用程序編程界面的嵌入式框架進行網(wǎng)絡(luò)轉(zhuǎn)換的轉(zhuǎn)換器。有關(guān)此解決方案的更多詳細信息，請閱讀白皮書“TIDL：嵌入式低功耗

發(fā)表于 03-13 06:45

深度學(xué)習(xí)在醫(yī)學(xué)圖像分割與病變識別中的應(yīng)用實戰(zhàn)

突破性的進展。代碼實例下面通過一個代碼實例，演示如何使用Python和深度學(xué)習(xí)庫TensorFlow進行醫(yī)學(xué)圖像分割與病變識別。這里以

發(fā)表于 09-04 11:11

在Python下使用OpenCV的技巧教程與典型應(yīng)用案例

在Python下使用OpenCV教程，本篇將介紹和深度學(xué)習(xí)數(shù)據(jù)處理階段最相關(guān)的基礎(chǔ)使用，并完成4個有趣實用的小例子： - 延時攝影小程序 -

發(fā)表于 11-15 18:43 ?1.2w次閱讀

如何用OpenCV、Python和深度學(xué)習(xí)實現(xiàn)面部識別?

Face ID 的興起帶動了一波面部識別技術(shù)熱潮。

發(fā)表于 07-05 09:57 ?2824次閱讀

如何使用Python-OpenCV實現(xiàn)餐盤水果識別與計價的應(yīng)用

導(dǎo)讀本文主要介紹使用Python-OpenCV實現(xiàn)餐盤水果識別與計價的應(yīng)用。測試圖像與說明使用圖像，拍攝環(huán)境有待改善（存在光照不均和拍攝

發(fā)表于 07-06 11:02 ?2909次閱讀

如何使用Python OpenCV進行面部標(biāo)志檢測

今天我們將使用相同的 OpenCV 和 Raspberry Pi 進行人臉標(biāo)志檢測。來自 dlib 庫的預(yù)訓(xùn)練面部標(biāo)志檢測器模塊將用于檢測面部關(guān)鍵面部結(jié)構(gòu)的位置，

發(fā)表于 08-12 16:32 ?1576次閱讀

如何使用<b class='flag-5'>Python</b> <b class='flag-5'>OpenCV</b>進行<b class='flag-5'>面部</b>標(biāo)志檢測

Linux Debian與Python、Flask和OpenCV識別面部

電子發(fā)燒友網(wǎng)站提供《Linux Debian與Python、Flask和OpenCV識別面部.zip》資料免費下載

發(fā)表于 08-24 10:16 ?2次下載

Linux Debian與<b class='flag-5'>Python</b>、Flask和<b class='flag-5'>OpenCV</b><b class='flag-5'>識別</b><b class='flag-5'>面部</b>

使用Xbox Kinect和OpenCV進行面部識別

電子發(fā)燒友網(wǎng)站提供《使用Xbox Kinect和OpenCV進行面部識別.zip》資料免費下載

發(fā)表于 07-04 11:25 ?0次下載

使用Xbox Kinect和<b class='flag-5'>OpenCV</b>進行<b class='flag-5'>面部</b><b class='flag-5'>識別</b>

Python實現(xiàn)OpenCV的安裝與使用

　　本文實例講述了 Python 實現(xiàn) OpenCV 的安裝與使用。分享給大家供大家參考，具體如下：　　由于下一步要開始研究下深度學(xué)習(xí)，而

發(fā)表于 07-20 11:46 ?7次下載

面部表情識別的技術(shù)實現(xiàn)

面部表情識別是一項復(fù)雜的技術(shù)，需要綜合運用計算機視覺、機器學(xué)習(xí)、深度學(xué)習(xí)等多種技術(shù)。本文將介紹面部

發(fā)表于 08-02 18:10 ?1310次閱讀

OpenCV庫在圖像處理和深度學(xué)習(xí)中的應(yīng)用

本文深入淺出地探討了OpenCV庫在圖像處理和深度學(xué)習(xí)中的應(yīng)用。從基本概念和操作，到復(fù)雜的

發(fā)表于 08-18 11:33 ?1058次閱讀

如何使用Python進行圖像識別的自動學(xué)習(xí)自動訓(xùn)練？

如何使用Python進行圖像識別的自動學(xué)習(xí)自動訓(xùn)練？使用Python進行圖像識別的自動學(xué)習(xí)和自

發(fā)表于 01-12 16:06 ?775次閱讀

基于Python的深度學(xué)習(xí)人臉識別方法

基于Python的深度學(xué)習(xí)人臉識別方法是一個涉及多個技術(shù)領(lǐng)域的復(fù)雜話題，包括計算機視覺、深度學(xué)習(xí)

發(fā)表于 07-14 11:52 ?1443次閱讀

opencv-python和opencv一樣嗎

不一樣。OpenCV（Open Source Computer Vision Library）是一個開源的計算機視覺和機器學(xué)習(xí)軟件庫，它提供了大量的圖像和視頻處理功能。

發(fā)表于 07-16 10:38 ?1759次閱讀

搜索歷史

如何使用OpenCV、Python和深度學(xué)習(xí)在圖像和視頻中實現(xiàn)面部識別?

評論

深度學(xué)習(xí)視角下的貓狗圖像識別實現(xiàn)

深度學(xué)習(xí)在汽車中的應(yīng)用

深度學(xué)習(xí)在醫(yī)學(xué)圖像分割與病變識別中的應(yīng)用實戰(zhàn)

在Python下使用OpenCV的技巧教程與典型應(yīng)用案例

如何用OpenCV、Python和深度學(xué)習(xí)實現(xiàn)面部識別?

如何使用Python-OpenCV實現(xiàn)餐盤水果識別與計價的應(yīng)用

如何使用Python OpenCV進行面部標(biāo)志檢測

Linux Debian與Python、Flask和OpenCV識別面部

使用Xbox Kinect和OpenCV進行面部識別

Python實現(xiàn)OpenCV的安裝與使用

面部表情識別的技術(shù)實現(xiàn)

OpenCV庫在圖像處理和深度學(xué)習(xí)中的應(yīng)用

如何使用Python進行圖像識別的自動學(xué)習(xí)自動訓(xùn)練？

基于Python的深度學(xué)習(xí)人臉識別方法

opencv-python和opencv一樣嗎

電子發(fā)燒友