不久之前,人們還常說,計算機視覺的辨別能力尚不如一歲大的孩子。
如今看來,這句話要改寫了。
計算機不僅能和大多數(shù)成年人一樣識別圖片中的物體,在馬路上駕駛汽車的安全性還高過 16 歲的青少年。
更神奇的是,如今的計算機不再是被動按照指令識別和駕駛,而是像自然界的生命由數(shù)百萬年前開始進化那樣,自主地從經(jīng)驗中學習。
是數(shù)據(jù)的井噴促成了這一技術進步。如果說數(shù)據(jù)是新時代的石油,那么學習算法就是從中提取信息的煉油廠;信息積累成知識;知識深化成理解;理解演變?yōu)橹腔邸?/p>
深度學習是機器學習的一個分支,它根植于數(shù)學、計算機科學和神經(jīng)科學。深度網(wǎng)絡從數(shù)據(jù)中學習,就像嬰兒了解周圍世界那樣,從睜開眼睛開始,慢慢獲得駕馭新環(huán)境所需的技能。
深度學習的起源可以追溯到 20 世紀 50 年代人工智能的誕生。關于如何構(gòu)建人工智能,當時存在兩種不同的觀點:
一種觀點主張基于邏輯和計算機程序,曾主宰人工智能的研究和應用數(shù)十年;
另一種觀點則主張直接從數(shù)據(jù)中學習,經(jīng)歷了更長時間的摸索才逐漸成熟。
如今,計算機能力日趨強大,數(shù)據(jù)資源也變得龐大且豐富,使用學習算法解決問題比以前更快、更準確,也更高效。
此外,同樣的學習算法還能用來解決許多不同的難題,這遠比為每個問題編寫不同的程序更加節(jié)省人力。
01
汽車新生態(tài):無人駕駛將全面走入人們生活
在 2005 年美國國防部高級研究計劃局(以下簡稱 DARPA)舉辦的自動駕駛挑戰(zhàn)賽中,一輛由斯坦福大學塞巴斯蒂安 · 特隆(Sebastian Thrun)實驗室開發(fā)的自動駕駛汽車 Stanley 最終贏得了 200 萬美元現(xiàn)金大獎。團隊利用了機器學習技術教它如何自主地在加利福尼亞州的沙漠中穿行。
132 英里的賽道中有若干狹窄的隧道和急轉(zhuǎn)彎,還包括啤酒瓶道(Beer Bottle Pass),這是一段蜿蜒曲折的山路,兩側(cè)分別是碎石遍布的陡坡和斷壁。
特隆并沒有遵循傳統(tǒng)的 AI 方法,即通過編寫計算機程序來應付各種偶發(fā)事件,而是在沙漠中駕駛 Stanley,讓汽車根據(jù)視覺和距離傳感器的感應輸入,學習如何像人一樣駕駛。
上圖為啤酒瓶道,圖中遠處的一輛卡車正要爬坡。圖片來源:DARPA。
特隆后來參與創(chuàng)立了高科技項目重點實驗室 Google X,并開始了進一步研究自動駕駛汽車技術的計劃。
谷歌的自動駕駛汽車自此開始,在舊金山灣區(qū)累積了 350 萬英里的車程。優(yōu)步(Uber)已經(jīng)在匹茲堡投放了一批自動駕駛汽車。
蘋果也步入自動駕駛領域,以擴大其操作系統(tǒng)控制的產(chǎn)品范圍,并希望能夠再現(xiàn)它在手機市場上的輝煌。
2017 年,英特爾以 153 億美元的價格收購了 Mobileye,它是一家專門為自動駕駛汽車研發(fā)傳感器和計算機視覺的公司。在價值數(shù)萬億美元的交通運輸領域,參與的各方都下了極高的賭注。
雖然目前自動駕駛汽車仍面臨很多監(jiān)管和法律層面的障礙,但這一技術一旦開始普及,我們就將迎來一個嶄新的世界。
02
兩個圣杯:自然語言翻譯與語音識別
深度學習快速改變格局的一個例子是它對語言翻譯的影響。語言翻譯是人工智能的一只圣杯,因為它依賴于理解句子的能力。
谷歌最近推出了基于深度學習的最新版谷歌翻譯(Google Translate),代表了自然語言翻譯質(zhì)量的重大飛躍。幾乎一夜之間,語言翻譯就從零散雜亂的拼湊短語,升級到了語意完整的句子。
人工智能的另一只圣杯是語音識別。不久之前,計算機的獨立語音識別應用領域還很有限,如機票預訂。而如今,限制已不復存在。
2012 年,一名來自多倫多大學的實習生在微軟研究院(Microsoft Research)的一個夏季研究項目中,讓微軟的語音識別系統(tǒng)性能得到了顯著的提升。
2016 年,微軟的一個團隊宣布,他們開發(fā)的一個擁有 120 層的深度學習網(wǎng)絡已經(jīng)在多人語音識別基準測試中達到了與人類相當?shù)乃健?/p>
圖為微軟首席研究官里克 · 拉希德(Rick Rashid)在 2012 年 10 月 25 日于中國天津舉行的一場活動中,使用深度學習進行了自動語音識別的現(xiàn)場演示。
03
AI 醫(yī)療:醫(yī)學診斷將更加準確
深入皮膚
隨著機器學習的成熟并被應用于可獲取大數(shù)據(jù)的許多其他問題,服務行業(yè)和其相關職業(yè)也將發(fā)生轉(zhuǎn)變?;跀?shù)百萬患者病情記錄的醫(yī)學診斷將變得更加準確。
最近的一項研究將深度學習運用到了囊括超過 2000 種不同疾病的 13 萬張皮膚病學圖像中,這個醫(yī)學數(shù)據(jù)庫是以前的 10 倍大。
該研究的網(wǎng)絡被訓練用于診斷“測試集”(testset,它從未見過的新圖像集)中的各種疾病。它在新圖像上的診斷表現(xiàn)與 21 位皮膚科專家的結(jié)論基本一致,甚至在某些情況下還要更準確。
深入癌癥
如果專家在轉(zhuǎn)移性乳腺癌的淋巴結(jié)活檢切片圖像上判斷錯誤,就有可能導致致命的后果。這是一種深度學習擅長的模式識別問題。
實際上,一個經(jīng)過大量結(jié)論清晰的切片數(shù)據(jù)訓練出來的深度學習網(wǎng)絡能達到 0.925 的準確度,還不錯,但還不及人類專家在同一測試集上達到的 0.966。
然而,把深度學習與人類專家的預測結(jié)合起來,準確度達到了 0.995,幾近完美。
04
金融科技:利用數(shù)據(jù)和算法獲取最佳回報
紐約證券交易所超過 75% 的交易都是自動完成的,高頻交易能在幾分之一秒內(nèi)進出倉位。如果你不用為每筆交易支付費用,那么即使是很小的優(yōu)勢也能帶來巨額利潤。
更長時間范圍內(nèi)的算法交易會考慮到基于大數(shù)據(jù)的長期趨勢。深度學習在賺錢和提高利潤方面做得越來越好。
預測金融市場,問題在于數(shù)據(jù)嘈雜,條件不穩(wěn)定—— 一場選舉或國際沖突可能會導致投資者心態(tài)在一夜之間發(fā)生變化。這意味著用來預測今天股票價值的算法可能到明天就不準了。
圖為延遲 vs 頭寸持有時間。在線機器學習正在推動算法交易,它比傳統(tǒng)的長期投資策略更快速,比股票市場中的高頻交易更加慎重。許多不同類型的機器學習算法被組合運用以獲得最佳回。
早在 20 世紀 80 年代,我還在為摩根士丹利的股票交易神經(jīng)網(wǎng)絡模型提供咨詢時,遇到了專門設計并行計算機的計算機科學家大衛(wèi) · 肖(David Shaw)。
哥倫比亞大學學術休假期間,肖曾在自動化交易早期擔任量化分析師,隨后他在華爾街創(chuàng)立了自己的投資管理公司德劭集團(The D. E. Shaw Group),現(xiàn)在他已經(jīng)是億萬富翁了。
德劭集團非常成功,但仍然遜于另一家對沖基金文藝復興科技公司(Renaissance Technologies)。這家基金是由杰出的數(shù)學家、紐約州立大學石溪分校數(shù)學系前主任詹姆斯 · 西蒙斯(James Simons)創(chuàng)立的。僅 2016 年,西蒙斯就掙了 16 億美元,這還算不上他最好的一年。
更廣泛的金融服務正在金融科技(fintech)的大背景下發(fā)生大規(guī)模轉(zhuǎn)型。諸如區(qū)塊鏈這樣的信息技術—— 一種安全的互聯(lián)網(wǎng)記賬方式,取代了金融交易的中間商——正在接受小規(guī)模的測試,但它很快就會擾亂價值數(shù)萬億美元的金融市場。
機器學習正在被用于改進貸款信用評估,準確地提供業(yè)務和財務信息,在社交媒體上獲取預測市場趨勢的信號,并為金融交易提供生物識別安全服務。誰擁有最多的數(shù)據(jù),誰就是贏家,而世界上充斥著財務數(shù)據(jù)。
05
德州撲克:當機器智能學會了虛張聲勢
一對一無限注德州撲克是最受歡迎的撲克玩法之一,常見于賭場,無限注投注方式則通常出現(xiàn)在世界撲克系列賽(World Series of Poker)的主賽事中。
撲克很有挑戰(zhàn)性,因為與國際象棋玩家可以獲得相同的信息不同,撲克玩家的信息不完整,而且在最高級別的比賽中,詐唬、欺騙的技巧和拿到的牌一樣重要。
數(shù)學家約翰 · 馮 · 諾依曼(John von Neumann)創(chuàng)立了數(shù)學博弈理論,也是數(shù)字計算機之父,他就對撲克特別著迷。
他說過:“現(xiàn)實生活包括虛張聲勢,一點欺騙手段,以及自問另一個人會怎么評判我做事的意圖。這就是我理論中博弈的內(nèi)涵?!?/p>
撲克是一種博弈,反映了經(jīng)過進化精煉過的人類智能的一部分。一個名為“DeepStack”的深度學習網(wǎng)絡和 33 名職業(yè)撲克選手進行了 44852 場比賽。
令撲克專家震驚的是,它以相當大的優(yōu)勢,一個標準差,擊敗了最出色的撲克玩家,同時以四個標準差在整體上擊敗了全部 33 名玩家——多么巨大的差距。
如果這一成就能復制到其他基于不完全信息、需要人來做判斷的重要領域,比如政治學和國際關系,其影響可能是極其深遠的。
圖為一對一無限注德州撲克,強勢手牌。DeepStack 已經(jīng)掌握了如何在高籌碼撲克中虛張聲勢,以大比分優(yōu)勢擊敗職業(yè)撲克玩家。
06
弗林效應:深度學習讓人類更加智能
在圍棋上大勝人類的 AlphaGo 有智力嗎?除了“意識”這個主題,關于智力的文章比心理學中任何其他主題都要多得多,這兩個概念都很難界定。
自 20 世紀 30 年代以來,心理學家就對流體智力和晶體智力進行了區(qū)分——流體智力能夠?qū)⑿聴l件中的推理和模式識別用于解決新問題,而不依賴于以前的知識;
晶體智力則依賴于先前的知識,也是標準智商測試(即 IQ 測試)的對象。流體智力遵循一種拋物線式發(fā)展軌跡,在成年早期達到高峰,并隨著年齡的增長逐漸下降;
而晶體智力會隨年齡的增長,緩慢漸進式地提高,直至暮年。AlphaGo 只在一個相當狹窄的領域同時展現(xiàn)出了晶體智力和流體智力,但在這個領域,它表現(xiàn)出了令人驚訝的創(chuàng)造力。
專業(yè)知識的獲取也是基于在狹窄領域的學習。我們都是語言領域的專家,每天都在使用語言。
AlphaGo 使用的強化學習算法可以被用來解決許多問題。這種形式的學習只取決于在一系列動作結(jié)束時給予獲勝者的獎勵,這似乎和提前做出更好的決策相矛盾。
結(jié)合了許多強大的深度學習網(wǎng)絡,就會生成許多領域相關的智能。而且事實上,已經(jīng)出現(xiàn)了與領域相關的不同類型智能,例如社會、情感、機械和建筑等的案例。
智力測試測量的一般因素(general factor,簡稱 g 因素)與這些不同類型相關。我們有理由認真審視 IQ 測試。自 20 世紀 30 年代首次測試智力以來,全人類平均的 IQ 分數(shù)每 10 年會上升三個點,這一趨勢被稱為“弗林效應”(Flynn effect)。
環(huán)境會影響基因調(diào)控,從而影響大腦內(nèi)在的連接,行為也會隨之發(fā)生變化。隨著人類越來越多地生活在人造環(huán)境中,大腦正在以某種超越自然進化軌道的方式被塑造。
在更長的時間內(nèi),人類是否能一直都在變得更聰明?智商增長會持續(xù)多久?
用電腦玩國際象棋、西洋雙陸棋和圍棋的人數(shù)自計算機程序達到冠軍級別后一直在穩(wěn)步增加,而機器也強化了人類玩家的智能。
深度學習提升的將不僅僅是科學研究人員的智能,還包括所有行業(yè)從業(yè)人員的智能。
07
回到未來:當人類智能遇到人工智能
有兩個相互交織的主題:人類智能是如何進化的,以及人工智能會如何演變。
這兩種智能之間的巨大差異在于,人類智能的進化經(jīng)歷了數(shù)百萬年的時間,而人工智能在最近幾十年才發(fā)展起來。
盡管對于文化演變來說,這個速度仍然是快得出奇,但是過于謹小慎微可能并不是個正確的選擇。
深度學習在近期取得的突破,并不是你從新聞報道中讀到的那種一夜成功。
從基于符號、邏輯和規(guī)則的人工智能向基于大數(shù)據(jù)和學習算法的深度學習網(wǎng)絡的轉(zhuǎn)變,其背后的故事通常并不為人所熟知。
-
計算機視覺
+關注
關注
8文章
1699瀏覽量
46050 -
機器學習
+關注
關注
66文章
8428瀏覽量
132837 -
自動駕駛
+關注
關注
784文章
13896瀏覽量
166694
原文標題:美國「四院院士」為你實力科普深度學習
文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論