2018年可以認(rèn)為是人工智能(AI)大爆發(fā)的一年。你只需看看那些標(biāo)語(yǔ)中帶AI一詞數(shù)量,宣稱(chēng)自己 AI 創(chuàng)業(yè)公司的數(shù)量,大公司提到 AI 戰(zhàn)略的次數(shù),以及技術(shù)頂會(huì)中爆滿(mǎn)的 AI 專(zhuān)場(chǎng),你就知道人工智能已經(jīng)無(wú)處不在。但是,即使是這樣,AI 也只是稱(chēng)為了一個(gè)流行語(yǔ)而已,但實(shí)際上 AI 的本質(zhì)是什么,我相信很多人都不知道。
圖 1: 這些年來(lái)大肆宣傳的概念
回顧這些年宣傳過(guò)的各種概念,多少人曾為之瘋狂。但是浪潮退去,裸泳者將會(huì)即刻出現(xiàn)。我們不應(yīng)該跟隨風(fēng)潮進(jìn)行概念炒作,相反的,我們應(yīng)該反思,這些技術(shù)都解決了什么問(wèn)題?
對(duì)數(shù)據(jù)科學(xué)行業(yè)來(lái)說(shuō),也是如此。讓我們回顧一下單單“數(shù)據(jù)科學(xué)”一詞在谷歌搜索中的趨勢(shì):
圖 2: 自2013年12月以來(lái)對(duì)“數(shù)據(jù)科學(xué)”術(shù)語(yǔ)的搜索(來(lái)源:谷歌趨勢(shì))
可以看到,數(shù)據(jù)科學(xué)的趨勢(shì)一直在穩(wěn)步上升。接下來(lái),讓我們回顧2018曾發(fā)生的事情,再來(lái)看看2019年的熱門(mén)話題。
2018 回顧
去年的這個(gè)時(shí)候,我也發(fā)表一篇關(guān)于2018年數(shù)據(jù)科學(xué)趨勢(shì)展望的文章。在那篇文章中,我主要提到的關(guān)鍵詞有:工程自動(dòng)化,模型可解釋性和公平性,數(shù)據(jù)科學(xué)應(yīng)用商業(yè)化,以及特征工程工具的構(gòu)建和改進(jìn)。
自動(dòng)化:一般來(lái)說(shuō),數(shù)據(jù)科學(xué)家的工作就是使他們的工作自動(dòng)化,這句話可能有點(diǎn)繞口,但你認(rèn)真思考以下,數(shù)據(jù)科學(xué)出現(xiàn)的意義就是解決大規(guī)模數(shù)據(jù)情況的分析和挖掘。而我們使用的各種模型,都是致力于提供某種較為通用的方案讓機(jī)器能夠自動(dòng)從數(shù)據(jù)中學(xué)習(xí)知識(shí)。并且在過(guò)去的一年里,很多大公司開(kāi)源了自己的模型算法,以及整個(gè)機(jī)器學(xué)習(xí)流水線的自動(dòng)化,甚至連機(jī)器學(xué)習(xí)算法的建模都能自動(dòng)化,參見(jiàn) Google/Amazon/阿里/騰訊 等一大批公司提出的 AutoML。
商業(yè)化:正是有了這么多可用的開(kāi)源工具,數(shù)據(jù)科學(xué)領(lǐng)域內(nèi)的商業(yè)化競(jìng)爭(zhēng)也越來(lái)越殘酷。不過(guò)幸運(yùn)的是,數(shù)據(jù)科學(xué)是一種橫向?qū)W科,你可以只對(duì)模型進(jìn)行一些微調(diào),就可以在農(nóng)業(yè)應(yīng)用和醫(yī)療場(chǎng)景中使用相同的算法。因此,你也會(huì)發(fā)現(xiàn),在2018年有很多宣稱(chēng)自己是 AI 公司的,如果在某個(gè)垂直方向上失敗了,他們會(huì)迅速適應(yīng)另一個(gè)領(lǐng)域。
同樣也是由于這么多的開(kāi)源工具,有一些公司直接對(duì)開(kāi)源工具進(jìn)行某種適配和修改,然后賣(mài)給其它公司。這也是2018里常常出現(xiàn)的一個(gè)現(xiàn)象。
可解釋性和公平性:2018年這個(gè)領(lǐng)域也取得了巨大進(jìn)展?,F(xiàn)在有很多開(kāi)源工具幫助解釋機(jī)器學(xué)習(xí)模型學(xué)習(xí)到的知識(shí),例如 Python 中會(huì)用到的 SHAP。 此外,還有很多書(shū)籍也在探討這個(gè)問(wèn)題,其中比較著名就有:Christoph Molnar 發(fā)表的《可解釋的機(jī)器學(xué)習(xí)模型》一書(shū)(獲取本書(shū)資源,請(qǐng)?jiān)诒竟娞?hào)發(fā)消息:可解釋?zhuān)纯色@取全書(shū))。除此之外,Google 提供的 “What-If” 工具系列,也可以幫助初學(xué)者降低學(xué)習(xí)門(mén)檻,了解機(jī)器學(xué)習(xí)復(fù)雜模型的運(yùn)行原理。感謝 Google。
特征工程:雖然深度學(xué)習(xí)全面席卷整個(gè)行業(yè),但是特征工程仍然是數(shù)據(jù)科學(xué)行業(yè)提升模型性能的主要秘訣之一。經(jīng)常參加比賽的同學(xué)就會(huì)知道,在各類(lèi)比賽的獲勝方案中,沒(méi)有哪個(gè)是單單靠模型取勝的,這些參賽者都花了很多時(shí)間在特征工程上,即便是深度模型也是如此。 因此,特征工程仍舊是一個(gè)大話題,但是在2018年,也有越來(lái)越多的通用特征處理工具和算法提了出來(lái)。
最后,根據(jù) Stack Overflow 的統(tǒng)計(jì),Python 已經(jīng)成為連續(xù)兩年增長(zhǎng)最快的編程語(yǔ)言和最受歡迎的語(yǔ)言。按照這個(gè)速度,Python 應(yīng)該會(huì)在不久之后成為最常用的編程語(yǔ)言。
2019 展望
2018年的飛速發(fā)展讓我們能更廣泛更輕松的應(yīng)用數(shù)據(jù)科學(xué),在2019年,數(shù)據(jù)科學(xué)家們關(guān)注的焦點(diǎn)是:
1. 如何最大限度地減少數(shù)據(jù)科學(xué)家花在數(shù)據(jù)清理和特征工程上的時(shí)間?
2. 如何解決機(jī)器學(xué)習(xí)模型的偏見(jiàn)問(wèn)題?
3. 機(jī)器學(xué)習(xí)模型真的都可信嗎?
拋開(kāi)這些難以回答的問(wèn)題,數(shù)據(jù)科學(xué)還有很多現(xiàn)實(shí)的問(wèn)題需要解決。
強(qiáng)化學(xué)習(xí)在2018年可謂是如坐過(guò)山車(chē)一般,從火爆到寒冬。但是今年強(qiáng)化學(xué)習(xí)的春天可能要到來(lái)了,比如應(yīng)用強(qiáng)化學(xué)習(xí)玩 Dota2 就是一個(gè)很好的例子。但是由于強(qiáng)化學(xué)習(xí)對(duì)于設(shè)備計(jì)算能力的要求較高,想要普及強(qiáng)化學(xué)習(xí)仍舊有很長(zhǎng)的路要走。但是,無(wú)論如何,強(qiáng)化學(xué)習(xí)是數(shù)據(jù)科學(xué)領(lǐng)域目前學(xué)習(xí)方式最擬人化的模型,如果強(qiáng)化學(xué)習(xí)一旦廣泛應(yīng)用,將會(huì)是革命性的進(jìn)展。
如果你對(duì)強(qiáng)化學(xué)習(xí)感興趣,可以關(guān)注由 OpenAI 開(kāi)發(fā)并開(kāi)源的 Gym,里面有很多游戲示例可以練手。
隱私問(wèn)題:2018年 facebook 由于隱私被起訴,國(guó)內(nèi)也有很多公司相繼爆出隱私問(wèn)題。國(guó)際上,歐盟于2018年5月25日起,將要求數(shù)據(jù)科學(xué)履行他們制定的通用數(shù)據(jù)保護(hù)法規(guī)(GDPR),這些對(duì)全球的數(shù)據(jù)科學(xué)公司來(lái)說(shuō),都會(huì)有極大的影響。
目前,GDPR 主要關(guān)注以下兩個(gè)方面:
- 數(shù)據(jù)隱私:任何公司如果未經(jīng)用戶(hù)授權(quán),擅自使用或者超過(guò)用戶(hù)的授權(quán)范圍使用用戶(hù)數(shù)據(jù),會(huì)收到歐盟的巨額罰款。這帶來(lái)的問(wèn)題是:以后想要獲取用戶(hù)數(shù)據(jù),是否會(huì)越來(lái)越困難,或者,如果我們使用匿名數(shù)據(jù),那么這些匿名數(shù)據(jù)是否真的可信?
- 向用戶(hù)解釋?zhuān)簩?duì)于任何完全自動(dòng)化的算法形成的決策,平臺(tái)必須要能夠向用戶(hù)解釋任何發(fā)生在用戶(hù)身上的事情。在完全自動(dòng)化的決策必須是可解釋的。歐盟沒(méi)有對(duì)“可解釋”下更多明確的定義,但是無(wú)論如何,迄今為止有很多機(jī)器學(xué)習(xí)模型仍舊還是不容易被解釋的,尤其是某些先進(jìn)的高級(jí)模型。那么是否意味著:一旦我們使用前沿的高級(jí)模型,是否就代表著有巨大的罰款等著我們?
值得信賴(lài)的人工智能至少要滿(mǎn)足這兩個(gè)條件:
(1)它應(yīng)該尊重人的基本權(quán)利,社會(huì)的法規(guī)、原則和價(jià)值觀,并且是道德的;
(2)在技術(shù)上它應(yīng)該強(qiáng)大可靠,避免對(duì)用戶(hù)造成意外傷害
隨著人工智能對(duì)社會(huì)的影響越來(lái)越大,我們有權(quán)要求這些 AI 減少偏見(jiàn)。幸運(yùn)的是,在國(guó)外我們已經(jīng)看到了很多公司和機(jī)構(gòu)在努力解決這個(gè)問(wèn)題,比如歐盟提出了AI道德草案,谷歌重申了AI應(yīng)用的原則。AI 倫理學(xué)還有很長(zhǎng)的路要走,希望在國(guó)內(nèi)我們也能有更多關(guān)于數(shù)據(jù)隱私和道德的討論。
圖 3:歐盟 AI 道德草案
基于云的解決方案:隨著人工智能算法變得越來(lái)越復(fù)雜,數(shù)據(jù)量越來(lái)越大,對(duì)計(jì)算機(jī)的要求越來(lái)越高?,F(xiàn)在已經(jīng)很少有大公司用個(gè)人電腦來(lái)進(jìn)行數(shù)據(jù)科學(xué)的研究。國(guó)內(nèi)如騰訊和阿里都相繼提出云上的機(jī)器學(xué)習(xí)解決方案,在未來(lái),這一定是數(shù)據(jù)科學(xué)開(kāi)發(fā)、運(yùn)行和部署的基本趨勢(shì)。
行業(yè)細(xì)分:現(xiàn)在如果你搜索一個(gè)傳統(tǒng)行業(yè)的工程師,你看到的職位名稱(chēng)將會(huì)非常細(xì)化,比如機(jī)械工程師嗎、航天工程師、軟件工程師等等。
數(shù)據(jù)科學(xué)也是如此。2018年很多公司會(huì)將數(shù)據(jù)科學(xué)職位定義為“數(shù)據(jù)科學(xué)家”,但是在未來(lái),隨著行業(yè)細(xì)分專(zhuān)業(yè)細(xì)分,數(shù)據(jù)科學(xué)家必定也會(huì)細(xì)分下去。國(guó)外 Netflix 公司已經(jīng)開(kāi)了一個(gè)好頭,下圖中展示了 Netflix 的九個(gè)數(shù)據(jù)科學(xué)家角色:
圖 4: Netflix 的數(shù)據(jù)科學(xué)家職位
這給我們的啟示是:深耕一個(gè)領(lǐng)域。在數(shù)據(jù)科學(xué)剛開(kāi)始的時(shí)候,肯定不存在許多專(zhuān)業(yè)化的細(xì)分領(lǐng)域。但隨著數(shù)據(jù)科學(xué)的發(fā)展,不同領(lǐng)域的細(xì)分越來(lái)越明顯,今年能夠明顯看到的就是 NLP 內(nèi)部也對(duì) NLG / NER 等工程師進(jìn)行了細(xì)分。所以如果你還沒(méi)有確定自己的方向的話,是時(shí)候好好思考一下了。
2019年仍將是數(shù)據(jù)科學(xué)高速發(fā)展的一年,它可能不如2018瘋狂,但讓我們更理性的對(duì)待數(shù)據(jù)科學(xué)本身就是一個(gè)好事。請(qǐng)記住,時(shí)間是你最大的資產(chǎn)。你浪費(fèi)的每一秒都是你錯(cuò)失的機(jī)會(huì)。行動(dòng)起來(lái),為數(shù)據(jù)科學(xué)更理性的明天做好準(zhǔn)備。
評(píng)論
查看更多