1月6日江蘇衛(wèi)視《最強(qiáng)大腦》,上演了一場(chǎng)精彩的人機(jī)對(duì)決,這次的戰(zhàn)場(chǎng)不再是圍棋,而是人臉識(shí)別。
人類的出戰(zhàn)代表為王峰(微博),其為90后世界記憶大師,《最強(qiáng)大腦》名人堂輪值主席。
2015年以隊(duì)長(zhǎng)身份參加《最強(qiáng)大腦第二季》,在《最強(qiáng)大腦》中德國(guó)際對(duì)抗賽中,王峰率領(lǐng)中國(guó)代表隊(duì)4:0完勝德國(guó)隊(duì),本人以一敵二,并打破快速記憶撲克牌世界紀(jì)錄。
機(jī)器的一方則是百度機(jī)器人“小度”,百度大腦在人工智能領(lǐng)域的很多研究成果都植入到其身上。
“百度大腦”已建成超大規(guī)模的神經(jīng)網(wǎng)絡(luò),擁有萬(wàn)億級(jí)的參數(shù)、千億樣本、千億特征訓(xùn)練,能模擬人腦的工作機(jī)制。百度大腦如今智商已經(jīng)有了超前的發(fā)展,在一些能力上甚至超越了人類。
在人臉識(shí)別技術(shù)的國(guó)際測(cè)評(píng)中,百度最高能達(dá)到99.77%的準(zhǔn)確率,2015年曾獲得過(guò)兩次世界第一。而人機(jī)大戰(zhàn)的第一場(chǎng)就是PK人臉識(shí)別。
“小度”將與名人堂選手約戰(zhàn)三場(chǎng),主要在人臉識(shí)別、語(yǔ)音識(shí)別上面PK,前三期人機(jī)大戰(zhàn),采用三局兩勝制,如果百度大腦全勝,將參加角逐最后的腦王爭(zhēng)霸。
第一輪:跨年齡識(shí)別
嘉賓(章子怡)從20張蜜蜂少女隊(duì)成員童年照中挑出3張高難度照片,選手通過(guò)動(dòng)態(tài)錄像表演將所選童年照和在場(chǎng)的成年少女向匹配。選擇正確者得1分。
蜜蜂少女隊(duì)人員眾多且每個(gè)人在賽場(chǎng)上化妝表演, 不排除有微整形、戴美瞳等因素干擾。
此外,挑選的童年照都在0-4歲范圍內(nèi),與現(xiàn)在成年少女隊(duì)的年齡跨度比較大。
同時(shí),比賽現(xiàn)場(chǎng)有實(shí)時(shí)照片傳輸、現(xiàn)場(chǎng)攝影機(jī)捕捉人臉圖像晃動(dòng)、燈光干擾等因素都會(huì)影響人工智能的識(shí)別準(zhǔn)確率。
最為困難的是,蜜蜂少女隊(duì)人員中有一對(duì)雙胞胎,恰巧被現(xiàn)場(chǎng)嘉賓抽中。
最終,事先并不知情的王峰未能從雙胞胎中區(qū)分出差別,導(dǎo)致判斷錯(cuò)誤,第一輪得0分。
?
而百度機(jī)器人則給出了兩個(gè)結(jié)果,區(qū)別是相似度僅相差0.01%,相似度較高那個(gè)最終被證明是正確答案,從而拿到第一輪的1分。
第一輪過(guò)后,人機(jī)大戰(zhàn)的比分是1:0,人類暫時(shí)落后。
第二輪:千臉跨年齡識(shí)別
人機(jī)共同觀察一位30歲以上的觀眾,隨后將他從30張小學(xué)集體照中找出。這一輪在上一輪的基礎(chǔ)上增加了難度,因此分值提高,選擇正確者得2分。
這一回合樣本容量大,30張集體照大約需要在1000-2000個(gè)人臉中找到對(duì)應(yīng)的人,年齡跨度也覆蓋在80、90后等年齡層中。
最終,機(jī)器和王峰先后在合照中正確識(shí)別出了嘉賓選擇出的觀眾,均得2分。加上第一輪的得分,機(jī)器最終得3分,王峰得2分。
經(jīng)過(guò)兩輪角逐,百度機(jī)器人以微弱優(yōu)勢(shì)勝出,王峰為雙胞胎那萬(wàn)分之一的差別付出了代價(jià)。
人臉識(shí)別的技術(shù)難點(diǎn)
人類大腦從上百萬(wàn)年前開始就擁有了人臉識(shí)別的能力,而機(jī)器沒(méi)有直覺(jué),也并沒(méi)有久遠(yuǎn)的進(jìn)化歷史,只能靠分析數(shù)據(jù)來(lái)學(xué)習(xí)。
計(jì)算機(jī)只認(rèn)識(shí)0和1,所以它必須通過(guò)無(wú)數(shù)次的學(xué)習(xí)來(lái)找到人類直覺(jué)的規(guī)律并將它轉(zhuǎn)變成0和1存儲(chǔ)在腦子里,從而模擬人類通過(guò)直覺(jué)思考的過(guò)程。
人臉識(shí)別技術(shù)研究的困難,不同于普通的圖像識(shí)別。就人的臉部特征而言,每個(gè)人的臉部結(jié)構(gòu)都是相似的,這對(duì)于利用人臉區(qū)分人類個(gè)體不利,還有一些特殊情況,比如雙胞胎甚至多胞胎。
其次就是表情、光照條件、整容等外因影響。不同的表情、角度觀察,光照條件的影響,人臉遮蓋物,如口罩、墨鏡、頭發(fā)、胡須,甚至是整容、P圖等行為,都增加了人臉識(shí)別的難度。
而對(duì)雙胞胎的識(shí)別,技術(shù)上就更困難了。
人臉識(shí)別是在臉部骨骼上取盡可能多的點(diǎn),通過(guò)計(jì)算機(jī)把這些點(diǎn)分別與自己已經(jīng)存儲(chǔ)的臉比較,有差別就判斷出來(lái)了。因?yàn)殡p胞胎骨骼太相似,導(dǎo)致差別特別細(xì)微,所以取的面部骨骼點(diǎn)不夠多的話是識(shí)別不出來(lái)的。
人臉識(shí)別主要步驟
(以比賽為例,現(xiàn)場(chǎng)小度識(shí)別蜜蜂少女成員的原理流程圖)
具體分解如下:
Step 1 人臉檢測(cè):
根據(jù)眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之間的幾何位置關(guān)系來(lái)檢測(cè)人臉,即在在一副圖像或一序列圖像(比如視頻)中判斷是否有人臉,若有則返回人臉的大小、位置等信息。
Step 2 人臉圖像預(yù)處理:
系統(tǒng)獲取的原始圖像由于受到各種條件的限制和隨機(jī)干擾,往往不能直接使用,必須在圖像處理的早期階段對(duì)它進(jìn)行灰度校正、噪聲過(guò)濾等圖像預(yù)處理。
人臉圖像的預(yù)處理主要包括人臉對(duì)準(zhǔn),人臉圖像的增強(qiáng),以及歸一化等工作。
人臉對(duì)準(zhǔn)是為了得到人臉位置端正的人臉圖像;
圖像增強(qiáng)是為了改善人臉圖像的質(zhì)量,不僅在視覺(jué)上更加清晰圖像,而且使圖像更利于計(jì)算機(jī)的處理與識(shí)別。
歸一化工作的目標(biāo)是取得尺寸一致,灰度取值范圍相同的標(biāo)準(zhǔn)化人臉圖像。
【人臉圖像的預(yù)處理】
Step 3 人臉圖像特征提取:
人臉特征提取就是針對(duì)人臉的某些特征進(jìn)行的。人臉特征提取,也稱人臉表征,它是對(duì)人臉進(jìn)行特征建模的過(guò)程。
Step 4 人臉圖像匹配與識(shí)別:
人臉識(shí)別就是將待識(shí)別的人臉特征與已得到的人臉特征模板進(jìn)行比較,根據(jù)相似程度對(duì)人臉的身份信息進(jìn)行判斷。這一過(guò)程又分為兩類:
一類是人臉確認(rèn),是一對(duì)一進(jìn)行圖像比較的過(guò)程,將某人面像與指定人員面像進(jìn)行一對(duì)一的比對(duì),根據(jù)其相似程度(一般以是否達(dá)到或超過(guò)某一量化的可信度指標(biāo)/閥值為依據(jù))來(lái)判斷二者是否是同一人。
另一類是人臉辨認(rèn),是一對(duì)多進(jìn)行圖像匹配對(duì)比的過(guò)程。將某人面像與數(shù)據(jù)庫(kù)中的多人的人臉進(jìn)行比對(duì)(有時(shí)也稱“一對(duì)多”比對(duì)),并根據(jù)比對(duì)結(jié)果來(lái)鑒定此人身份,或找到其中最相似的人臉,并按相似程度的大小輸出檢索結(jié)果。
百度大腦提升跨年齡人臉識(shí)別的方法
影響人臉識(shí)別的因素有很多,其中影響人臉檢測(cè)的因素有:光照、人臉姿態(tài)、遮擋程度;
影響特征提取的因素有:光照、表情、遮擋、年齡、模糊是影響人臉識(shí)別精度的關(guān)鍵因素。而在跨年齡人臉檢測(cè)中影響因素更多。
一般而言,在跨年齡階段人臉識(shí)別中,類內(nèi)變化通常會(huì)大于類間變化,這造成了人臉識(shí)別的巨大困難。同時(shí),跨年齡的訓(xùn)練數(shù)據(jù)難以收集。沒(méi)有足夠多的數(shù)據(jù),基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)很難學(xué)習(xí)到跨年齡的類內(nèi)和類間變化。
基于第一點(diǎn),百度IDL的人臉團(tuán)隊(duì)選擇用度量學(xué)習(xí)的方法。即通過(guò)學(xué)習(xí)一個(gè)非線性投影函數(shù),把圖像空間投影到特征空間中。在這個(gè)特征空間里,跨年齡的同一個(gè)人的兩張人臉的距離會(huì)比不同人的相似年齡的兩張人臉的距離要小。
針對(duì)第二點(diǎn),考慮到跨年齡人臉的稀缺性。百度用一個(gè)用大規(guī)模人臉數(shù)據(jù)訓(xùn)練好的模型作為底座,然后用跨年齡數(shù)據(jù)對(duì)他做更新。這樣不容易過(guò)擬合。
將這兩點(diǎn)結(jié)合起來(lái)做端到端的訓(xùn)練,可以大幅度提升跨年齡識(shí)別的識(shí)別率。
另外,百度人臉測(cè)試集有2百萬(wàn)人的2億張圖片作為訓(xùn)練樣本數(shù)據(jù)。
專家點(diǎn)評(píng)
百度首席科學(xué)家吳恩達(dá):小度不僅代表百度人工智能,更代表中國(guó)
百度首席科學(xué)家吳恩達(dá)
世界頂級(jí)的科學(xué)家也只能理解人腦運(yùn)作機(jī)制的一部分,百度人工智能算法參考人腦較少,更多基于數(shù)據(jù)分析和深度學(xué)習(xí)。
在這次比賽中,我們選擇的競(jìng)賽項(xiàng)目對(duì)于機(jī)器來(lái)說(shuō)非常非常困難,涉及到人臉識(shí)別、語(yǔ)音識(shí)別等,但事實(shí)上這些對(duì)于人類來(lái)說(shuō)卻相對(duì)容易。人們可以通過(guò)直覺(jué)來(lái)進(jìn)行很好地判斷,比如見(jiàn)到一個(gè)人,你不假思索就能認(rèn)出他是誰(shuí)。但是機(jī)器必須從大量數(shù)據(jù)進(jìn)行訓(xùn)練,有些項(xiàng)目中甚至需要識(shí)別不清晰的、老舊的照片,所以我認(rèn)為這對(duì)于機(jī)器來(lái)說(shuō)是個(gè)巨大的挑戰(zhàn)。
人臉識(shí)別這項(xiàng)技能,人類大腦從上百萬(wàn)年前開始就擁有了,而機(jī)器沒(méi)有直覺(jué),也并沒(méi)有久遠(yuǎn)的進(jìn)化歷史,只能靠分析數(shù)據(jù)來(lái)學(xué)習(xí)。所以這項(xiàng)技能對(duì)于哪怕是世界上最先進(jìn)的AI技術(shù)也是非常困難的。
今天,我們基于強(qiáng)大的數(shù)據(jù)分析,很容易識(shí)別兩張近期的照片。但是對(duì)于識(shí)別整容、化濃妝或者十幾年跨度的照片,我們并沒(méi)有大量的數(shù)據(jù)可以分析。所以這是人臉識(shí)別技術(shù)遇到的世界性的挑戰(zhàn),也是今天比賽中最大的難點(diǎn)之一。
全世界棋類比賽中頂級(jí)的選手很少,人臉識(shí)別能力每個(gè)人都具備。這次人機(jī)大戰(zhàn),是頂級(jí)的人臉識(shí)別選手和擅長(zhǎng)棋類游戲的人工智能比拼,很公平。
人類正在步入人工智能時(shí)代,不久的未來(lái),人工智能技術(shù)就能應(yīng)用到走失兒童項(xiàng)目,強(qiáng)大的人工智能創(chuàng)造者依然是人類。
小度目前不能完全明白人類的思想,但是要向王峰還有名人堂的頂級(jí)大腦學(xué)習(xí), 更好服務(wù)人類。小度不僅代表百度人工智能,更代表中國(guó)。這次人機(jī)大戰(zhàn)是百度大腦第一次出現(xiàn)在公開場(chǎng)合的比賽,結(jié)果無(wú)法知道,只能靜待其觀。
《最強(qiáng)大腦》Dr.魏:人工智能的后面也是人,是科學(xué)家工作的結(jié)晶
人認(rèn)為最簡(jiǎn)單的事情,對(duì)人工智能來(lái)說(shuō)是很困難的。比如運(yùn)動(dòng),雖然三歲的時(shí)候你就會(huì)爬樓梯,但是現(xiàn)在我們都不知道怎么讓機(jī)器人像人一樣流暢地爬樓梯,特別是樓梯的好多參數(shù)是無(wú)法預(yù)知的時(shí)候。
人可以爬各種各樣的樓梯,在不同光照條件,不同身體狀況等。但是機(jī)器人到現(xiàn)在無(wú)法象人一樣流暢。從進(jìn)化上來(lái)說(shuō),運(yùn)動(dòng),包括像爬樓梯這樣的運(yùn)動(dòng),大腦很早就學(xué)會(huì)了。
而人學(xué)會(huì)圍棋對(duì)進(jìn)化中的大腦來(lái)說(shuō),是很晚才開始玩的。所以,對(duì)人來(lái)說(shuō),樓梯容易一點(diǎn),圍棋難一點(diǎn)。但是可能對(duì)機(jī)器來(lái)說(shuō)圍棋更容易一些,上樓梯更難一些。
感知和運(yùn)動(dòng),這是人類擅長(zhǎng)的。這個(gè)事情我們就干了幾百萬(wàn)年,我們恰恰不擅長(zhǎng)邏輯和運(yùn)算為代表的抽象思維能力。機(jī)器不擅長(zhǎng)感知和運(yùn)動(dòng)。你會(huì)發(fā)現(xiàn)機(jī)器人能下圍棋或者記下海量的信息,但是沒(méi)有辦法像人這樣運(yùn)動(dòng),或者像人一樣去感知這個(gè)復(fù)雜而快速變化的世界。
人工智能目前擅長(zhǎng)的是一個(gè)規(guī)則定義清楚的東西,他能夠解決,就是圍棋。圍棋是有規(guī)則的,他是有一個(gè)目標(biāo)狀態(tài),就是我占得去比你大,我把你圍死了,國(guó)際象棋更是,我就把你kill。目前人工智能算法能解決的問(wèn)題很多都是有規(guī)則的,或者目標(biāo)狀態(tài)定義清楚的。但是人類社會(huì),人腦要實(shí)現(xiàn)的東西并沒(méi)有規(guī)則,甚至連準(zhǔn)確的目標(biāo)狀態(tài)都沒(méi)法提前知道。
人的很多技能,就是一直練下去一直會(huì)提升。除了有些是生理上的衰老,你的肌肉系統(tǒng)衰老,那沒(méi)辦法。但是很多技能,如果不被物理身體限制的話,很多技能都是越練越好。另外,人類的整體智商是逐年提升的,所謂的弗林效應(yīng),平均智商每10年提高3個(gè)點(diǎn)左右,當(dāng)然,主要提高的是抽象思維能力。
人工智能后面也是人,它是很多工程師和科學(xué)家工作的結(jié)晶。機(jī)器贏人類,這是科技發(fā)展的必然結(jié)果。這天遲早會(huì)到來(lái),只是來(lái)的早和晚的事情。
科技的發(fā)展,其實(shí)是超越我們的想象的。這一天遲早會(huì)到來(lái),包括我們目前還不能實(shí)現(xiàn)的通用人工智能。只是現(xiàn)在的工程師做的是一個(gè)一個(gè)區(qū)域地攻克,有些硬骨頭要啃。在這舞臺(tái)上你可以說(shuō)在某些領(lǐng)域人工智能已經(jīng)達(dá)到登峰造極的程度了。
人工智能在面孔識(shí)別上超過(guò)人類。應(yīng)該是2012年,就說(shuō)人臉識(shí)別超過(guò)了人類的平均水平,是里程碑事件。那現(xiàn)在,百度大腦超越的人類中出類拔萃的一群人??梢哉f(shuō)在這個(gè)專業(yè)方向上,人工智能的準(zhǔn)確率已經(jīng)達(dá)到很高的水準(zhǔn),下一步應(yīng)該是提高運(yùn)算的效率和能耗。
任何新技術(shù)出現(xiàn)的時(shí)候老百姓都恐慌,汽車出現(xiàn)恐慌,火車出現(xiàn)恐慌,計(jì)算機(jī)出現(xiàn)恐慌。這個(gè)是終極恐慌,因?yàn)槠嚦霈F(xiàn)的恐慌只是這個(gè)東西很快,能撞死我。火車也是一樣。
老百姓第一想到的是自己的失業(yè),自動(dòng)化的工廠起來(lái)想的是產(chǎn)業(yè)工人的失業(yè),人工智能的出現(xiàn),可能讓很多一般智力活動(dòng)(包括很多白領(lǐng)的工作)甚至專業(yè)人員(包括某些領(lǐng)域的醫(yī)生)的工作受到威脅。但是,我覺(jué)得人類的整體的失業(yè)率不一定會(huì)下滑,有些的工作死了,新的工作又產(chǎn)生了。
百度深度學(xué)習(xí)研究院主任林元慶: 打敗人類不是目的
百度這幾年在人工智能上投入了相當(dāng)?shù)牧α孔黾夹g(shù)研發(fā),我們想在人比較擅長(zhǎng)的領(lǐng)域和人較量一下,到底我們的水平做到什么樣了,在這些方面是不是和人接近,還是說(shuō)有很大的差距。
打敗人類不是目的,希望我們能演化出很好的技術(shù)服務(wù)人類。
百度這幾年在人工智能上投入了相當(dāng)?shù)牧α孔黾夹g(shù)研發(fā),我們想在人比較擅長(zhǎng)的領(lǐng)域和人較量一下,到底我們的水平做到什么樣了,在這些方面是不是和人接近,還是說(shuō)有很大的差距。
評(píng)論
查看更多