雖然機(jī)器學(xué)習(xí)已經(jīng)成為一個(gè)高頻名詞,但是對(duì)于大眾而言,它依然是一個(gè)遙不可及乃至模糊不清的概念。為此,著名投資人 Benedict Evans 在自己的博客上發(fā)表博文,針對(duì)這一問(wèn)題表達(dá)了自己的看法;本文對(duì)這篇博文進(jìn)行了不改變?cè)獾木幾g。
機(jī)器學(xué)習(xí)的風(fēng)潮已經(jīng)刮了四五年了,除了以 AI 為名如雨后春筍般快速崛起的新創(chuàng)公司們,各家科技巨頭也希望圍繞這個(gè)時(shí)髦詞“重塑金身”。此外,通過(guò)媒體的大肆宣傳,機(jī)器學(xué)習(xí)也已經(jīng)成了一個(gè)家喻戶曉的名詞。總之,機(jī)器學(xué)習(xí)將成為下一個(gè)能幫“豬”起飛的風(fēng)口已經(jīng)是大家的共識(shí)。
在正式開始之前,我們先說(shuō)說(shuō)人工智能(AI),機(jī)器學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)四者的關(guān)聯(lián)。簡(jiǎn)單來(lái)說(shuō),人工智能的范疇最大,機(jī)器學(xué)習(xí)包含在內(nèi),它是帶來(lái)人工智能的方法。至于神經(jīng)網(wǎng)絡(luò),則是機(jī)器學(xué)習(xí)眾多算法中的一類,而深度學(xué)習(xí)則是實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù),是它的一種延伸。
經(jīng)過(guò)這么多年的知識(shí)普及,恐怕理解(理論上)神經(jīng)網(wǎng)絡(luò)是什么的人已經(jīng)相當(dāng)多,至少大家都知道它與范式和數(shù)據(jù)有關(guān)。機(jī)器學(xué)習(xí)讓我們能在數(shù)據(jù)中找到那些暗示性和隨機(jī)性的范式或結(jié)構(gòu),而在此之前能找到這些隱含屬性的只有人類,因?yàn)槲覀儠?huì)推理。
有了機(jī)器學(xué)習(xí),那些原本對(duì)人類來(lái)說(shuō)相當(dāng)簡(jiǎn)單(或者說(shuō)無(wú)法向計(jì)算機(jī)描述的問(wèn)題)但卻能難倒計(jì)算機(jī)的問(wèn)題就迎刃而解了,各路公司也都拿出了相當(dāng)炫酷的演示。
不過(guò),筆者依然認(rèn)為,對(duì)于機(jī)器學(xué)習(xí)的定義,整個(gè)行業(yè)依然沒有一個(gè)固定的理解,一切都還未塵埃落定。對(duì)于科技公司或整體經(jīng)濟(jì)來(lái)說(shuō)它到底意味著什么?機(jī)器學(xué)習(xí)到底能解決什么重要問(wèn)題?它對(duì)于普羅大眾又意味著什么?如何從結(jié)構(gòu)上理解它的影響呢?
這時(shí)有人會(huì)抬出 AI 這個(gè)術(shù)語(yǔ),不過(guò)它其實(shí)一個(gè)問(wèn)題都回答不了,它就像《2001 太空漫游》中提到的黑色巨石(代表未解之謎),在它面前我們都是揮舞著拳頭吼叫的猩猩,想解構(gòu) AI 幾乎是不可能完成的任務(wù)。
事實(shí)上,我覺得現(xiàn)在大家能提出一大串無(wú)用的方法來(lái)討論機(jī)器學(xué)習(xí)的發(fā)展程度。舉例來(lái)說(shuō):
1. 數(shù)據(jù)是新的石油
2. 谷歌和中國(guó)包攬了所有數(shù)據(jù)
3. AI 將搶走所有工作
4. 只談?wù)?AI
也許,我們能找個(gè)更多有用的角度,比如:
1. 自動(dòng)化
2. 為技術(shù)層賦能
3. 關(guān)系數(shù)據(jù)庫(kù)
為什么要提到關(guān)系數(shù)據(jù)庫(kù)呢?因?yàn)樗鼈兪切碌幕A(chǔ)賦能層,可以擴(kuò)大計(jì)算機(jī)的能力范圍。在關(guān)系數(shù)據(jù)庫(kù)出現(xiàn)之前(上世紀(jì) 70 年代末),如果你想讓數(shù)據(jù)庫(kù)告訴你“住在這座城市里的人誰(shuí)買了這件商品”,就必須專門搞個(gè)定制版的工程項(xiàng)目。也就是說(shuō),當(dāng)時(shí)的數(shù)據(jù)庫(kù)建立時(shí)沒有結(jié)構(gòu),因此想實(shí)現(xiàn)任意的交叉引用查詢可是個(gè)難事。如果你想問(wèn)個(gè)問(wèn)題,就得有人圍繞這個(gè)問(wèn)題下大功夫工作一番。當(dāng)時(shí)的數(shù)據(jù)庫(kù)只是一套記錄系統(tǒng),但關(guān)系數(shù)據(jù)庫(kù)的出現(xiàn)讓它們進(jìn)化成了商業(yè)智能系統(tǒng)。
這樣的改變也讓數(shù)據(jù)庫(kù)的重要性陡然增加,新的用例伴隨獨(dú)角獸們?nèi)缬旰蟠汗S般誕生。關(guān)系數(shù)據(jù)庫(kù)的誕生給了我們甲骨文和 SAP 公司,而 SAP 和競(jìng)爭(zhēng)對(duì)手們又一同為世界帶來(lái)了全球無(wú)庫(kù)存式供應(yīng)鏈,在這一技術(shù)的基礎(chǔ)上,蘋果和星巴克等公司締造了自己的帝國(guó)。上世紀(jì) 90 年代,幾乎所有企業(yè)級(jí)軟件都換用了關(guān)系數(shù)據(jù)庫(kù),包括 PeopleSoft,CRM 和 SuccessFactors 都是基于關(guān)系數(shù)據(jù)庫(kù)運(yùn)行的產(chǎn)品。此役之后,再也不會(huì)有人傻兮兮的說(shuō)“沒用的,甲骨文早已吃掉所有數(shù)據(jù)庫(kù)”這種話了。相反,這項(xiàng)技術(shù)幾乎成了所有新事物的賦能層,它已無(wú)處不在。
因此,這一思路才是我們現(xiàn)在重新思考機(jī)器學(xué)習(xí)的最佳接地方式,它會(huì)給計(jì)算機(jī)能力帶來(lái)巨大的躍升,成為不同公司不同產(chǎn)品中的一部分。最終,機(jī)器學(xué)習(xí)也會(huì)無(wú)處不在,成為大家習(xí)以為常甚至都不愿再提的一項(xiàng)技術(shù)。
值得一提的是,雖然關(guān)系數(shù)據(jù)庫(kù)具有規(guī)模經(jīng)濟(jì)效應(yīng),但它提供的確實(shí)一個(gè)有限網(wǎng)絡(luò)或“贏家通吃”的效應(yīng)。也就是說(shuō),即使公司 A 和公司 B 買了同一個(gè)數(shù)據(jù)庫(kù)軟件,兩家公司也不會(huì)從對(duì)方那里獲益。機(jī)器學(xué)習(xí)也遵循同樣的道理,它的一切都與數(shù)據(jù)有關(guān),但數(shù)據(jù)又與特定的應(yīng)用程序息息相關(guān)。更多的筆跡數(shù)據(jù)只會(huì)提高它任筆跡的能力,而更多的燃?xì)廨啓C(jī)數(shù)據(jù)讓系統(tǒng)能提前預(yù)測(cè)故障,但兩者并不能相互扶持。這就是其殘酷之處,數(shù)據(jù)是不可替代的。
上面這段話其實(shí)徹底攥住了我們對(duì)于機(jī)器學(xué)習(xí)普遍誤解的核心,即在某種程度上來(lái)看,它是一個(gè)單一的通用的事物。同時(shí),在理解什么是自動(dòng)化時(shí)我們也犯了相同錯(cuò)誤。在每一次自動(dòng)化風(fēng)潮到來(lái)時(shí),我們都感覺自己在創(chuàng)造一種擬人的且有基本智力的技術(shù)。舉例來(lái)說(shuō),上世紀(jì) 50 年代,人類開始暢想能做家務(wù)和上菜的機(jī)器人,結(jié)果我們沒培養(yǎng)出機(jī)器人服務(wù)生,反而造出了洗衣機(jī)。
洗衣機(jī)也是機(jī)器人,不過(guò)它們并非“智能”機(jī)器人。它們不清楚水和衣服到底是何物。此外,即使是在洗滌這個(gè)分類中,它們也并非通用產(chǎn)品,要不然洗碗機(jī)也不會(huì)誕生了。簡(jiǎn)單來(lái)說(shuō),它們只是另一種形式的自動(dòng)化,在概念上和傳送帶沒什么不同。同樣的,機(jī)器學(xué)習(xí)確實(shí)能讓我們解決許多現(xiàn)在電腦搞不定的問(wèn)題,不過(guò)這些問(wèn)題肯定都需要不同的實(shí)現(xiàn)方式和不同的數(shù)據(jù),甚至是不同的市場(chǎng)策略和開發(fā)公司,而這其中的每一環(huán)都是自動(dòng)化的一塊拼圖,它們是一個(gè)個(gè)能執(zhí)行不同任務(wù)的洗滌設(shè)備。
因此,在談?wù)摍C(jī)器學(xué)習(xí)時(shí)我們肯定會(huì)遭遇“攔路虎”,即我們要在數(shù)學(xué)的機(jī)械論解釋和對(duì)人工智能的幻想中找到中間立場(chǎng)。
讓我們回到與關(guān)系數(shù)據(jù)庫(kù)的類比話題,現(xiàn)在我們確實(shí)能信心滿滿的說(shuō),這項(xiàng)技術(shù)能解決大量問(wèn)題,但你并不知道是哪些具體問(wèn)題。你能用機(jī)器學(xué)習(xí)進(jìn)行令人印象深刻的語(yǔ)音和圖像識(shí)別展示,但普通公司用它來(lái)干什么呢?就像一家美國(guó)媒體公司說(shuō)的:“有了機(jī)器學(xué)習(xí),我們確實(shí)能一次給十年的訪談節(jié)目做索引,但我們要在索引里找什么呢?”
那么什么才是有真正用途的機(jī)器學(xué)習(xí)洗滌機(jī)呢?要解答這個(gè)問(wèn)題,我認(rèn)為需要用到兩種工具。第一種是按照數(shù)據(jù)類型和問(wèn)題類型的隊(duì)列進(jìn)行思考。
機(jī)器學(xué)習(xí)確實(shí)能在你所擁有的數(shù)據(jù)中快速找到問(wèn)題答案,你甚至可以將它看做一種分析或優(yōu)化技術(shù)。舉例來(lái)說(shuō),我們的投資公司 Instacart 就打造了一套系統(tǒng),專門用來(lái)優(yōu)化個(gè)人買家通過(guò)分散渠道進(jìn)行投資的路徑。這套系統(tǒng)直接將效率提升了 50%,而且開發(fā)團(tuán)隊(duì)只有三名工程師(用了谷歌的開源工具)。
同時(shí),機(jī)器學(xué)習(xí)還能讓你在數(shù)據(jù)中找到新問(wèn)題的答案。舉例來(lái)說(shuō),一位正在為打官司做準(zhǔn)備的律師可以搜索到包含“憤怒”、“憂慮”或“反?!币馕兜泥]件,這樣就比單純的關(guān)鍵詞搜索高效多了。
機(jī)器學(xué)習(xí)打開了新大門,給了我們可以分析的新數(shù)據(jù)類型。從前計(jì)算機(jī)無(wú)法真正的讀懂音頻、圖像或視頻,但未來(lái)這一切都有可能成真。
在這三種數(shù)據(jù)類型中,我發(fā)現(xiàn)圖像最有趣。計(jì)算機(jī)誕生伊始,就能處理文本和數(shù)字,但圖像和視頻卻是它們的軟肋,現(xiàn)在它們不但能讀,還能看了。這就意味著圖像傳感器和麥克風(fēng)成了一種全新的輸入機(jī)制,它們攝像頭的屬性被機(jī)讀數(shù)據(jù)流生成器屬性蓋過(guò)。所有的事都會(huì)成為計(jì)算視覺問(wèn)題,但這里的計(jì)算視覺問(wèn)題又與當(dāng)下的計(jì)算視覺問(wèn)題有所不同。
這又與識(shí)別“貓片”無(wú)關(guān)。最近我參觀了一家汽車座椅供應(yīng)商,它們就在自家的廉價(jià) DSP 芯片中灌入了神經(jīng)網(wǎng)絡(luò),而與其配合的則是廉價(jià)的智能手機(jī)圖像傳感器。它們搭建這套系統(tǒng),是為了查找座椅織物中的褶皺。將這套系統(tǒng)稱為“人工智能”有些言過(guò)其實(shí)了,它只不過(guò)是將某種此前無(wú)法自動(dòng)化的任務(wù)自動(dòng)化了而已。
這種自動(dòng)化的感覺是我們思考有關(guān)機(jī)器學(xué)習(xí)問(wèn)題的第二種工具。對(duì)人來(lái)說(shuō),找找織物中的褶皺可用不了二十年的經(jīng)驗(yàn)積累,因?yàn)樗?jiǎn)單了。事實(shí)上,我的同事就認(rèn)為,那些無(wú)論如何訓(xùn)練,狗狗都學(xué)不會(huì)的能力,機(jī)器學(xué)習(xí)都能掌握。這有益于我們思考有關(guān) AI 偏見的問(wèn)題,但還是有自己的局限性。因?yàn)楣饭房蓻]有一般智力和常識(shí),而神經(jīng)網(wǎng)絡(luò)可不同。吳恩達(dá)就指出,機(jī)器學(xué)習(xí)能在一秒鐘之內(nèi)學(xué)走你的能力。
五年之前,如果你給計(jì)算機(jī)一堆圖片來(lái)辨認(rèn),它們能做的只是區(qū)分這些圖片的尺寸,而十歲的小孩很輕松就能分辨出照片中的男人和女人,而十五歲的小孩則能看出照片里的面孔酷不酷,而再長(zhǎng)大幾歲去實(shí)習(xí)時(shí),人甚至能看出照片中的隱晦的意味。有了機(jī)器學(xué)習(xí)后,計(jì)算機(jī)的能力馬上就提升到十歲孩子的級(jí)別,它們甚至能沖擊下十五歲的智商。機(jī)器學(xué)習(xí)可能永遠(yuǎn)達(dá)不到實(shí)習(xí)生的水平,但如果你手上有 100 萬(wàn)個(gè)十五歲孩子來(lái)保管數(shù)據(jù)呢?你會(huì)命令他們做什么?聽什么電話?看什么圖片?審查什么文件或信用卡支付呢?
換言之,機(jī)器學(xué)習(xí)不需要成為擁有幾十年經(jīng)驗(yàn)的“老司機(jī)”,我們也不是要讓專家成為自動(dòng)化的“犧牲品”。相反,我們對(duì)機(jī)器學(xué)習(xí)的主要要求是“接聽所有電話并挑出那些生氣的人”,“閱讀所有郵件并找出那些滿是焦慮的郵件”,“看遍成千上萬(wàn)張照片并找到那些照片中的炫酷人類”。
在某種意義上,這就是自動(dòng)化的慣例。Excel 沒給我們?nèi)斯?huì)計(jì)員,PS 也沒給我們?nèi)斯D片設(shè)計(jì)師。相反,我們大規(guī)模自動(dòng)化了離散的任務(wù)。
在某些領(lǐng)域,機(jī)器學(xué)習(xí)可能找不到人類已經(jīng)認(rèn)識(shí)到的東西,但它們卻能找到我們認(rèn)識(shí)不到的或者范式、推論或暗示,就像 Deepmind 的 AlphaGo 那樣。AlphaGo 并不會(huì)像圍棋運(yùn)動(dòng)員那樣下棋,而是先學(xué)會(huì)規(guī)則隨后進(jìn)行不斷的左右互搏。如果機(jī)器學(xué)習(xí)充當(dāng)著實(shí)習(xí)生的角色,它們不會(huì)一開始就告訴你某張照片很好看,而是在看到第三百萬(wàn)張圖片時(shí),發(fā)現(xiàn)其中的范式。那么,到底哪個(gè)領(lǐng)域小到讓我們能告訴機(jī)器學(xué)習(xí)系統(tǒng)具體的規(guī)則,以便它們能在數(shù)據(jù)中挖掘出新的成果呢?
我花了很多時(shí)間遍訪各家公司以尋找它們的技術(shù)需求,在機(jī)器學(xué)習(xí)上顯然它們已經(jīng)有許多即將成熟的果實(shí)。不過(guò),這里確實(shí)還有許多明顯的分析和優(yōu)化問(wèn)題,有些則是圖像識(shí)別或音頻分析問(wèn)題。我們討論自動(dòng)駕駛汽車和混合現(xiàn)實(shí)是因?yàn)闄C(jī)器學(xué)習(xí)成了它們的催化劑。機(jī)器學(xué)習(xí)讓汽車能看到它周圍事物的一舉一動(dòng),至于混合現(xiàn)實(shí),機(jī)器學(xué)習(xí)則決定了頭盔佩戴者到底能看到什么。不過(guò),在討論過(guò)織物上的褶皺或呼叫中心的情感分析后,這些公司又有了新問(wèn)題:“機(jī)器學(xué)習(xí)還有其他能耐嗎?它們還能助力什么技術(shù)?又能發(fā)現(xiàn)什么新機(jī)遇?”
在厭煩這些問(wèn)題之前,我們恐怕還能保持 10-15 年的新鮮感。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132850
原文標(biāo)題:關(guān)于機(jī)器學(xué)習(xí),你所知道的,可能都是錯(cuò)的?
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論