AI,包括機(jī)器學(xué)習(xí)現(xiàn)在是重要的技術(shù)趨勢(shì),在這個(gè)領(lǐng)域已經(jīng)有不少獨(dú)角獸創(chuàng)業(yè)公司,科技巨頭們更是早早布局。只要對(duì)這項(xiàng)技術(shù)稍有了解就會(huì)明白,數(shù)據(jù)是機(jī)器學(xué)習(xí)的養(yǎng)料,那么已經(jīng)擁有大量數(shù)據(jù)的科技巨頭公司會(huì)不會(huì)強(qiáng)者更強(qiáng),甚至形成壟斷,后來的創(chuàng)業(yè)公司還有機(jī)會(huì)么?
為什么數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)很重要?
首先,為什么數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)如此重要?舉例說明。在過去,利用傳統(tǒng)的方法構(gòu)建一個(gè)系統(tǒng)來識(shí)別某樣事物,需要一系列復(fù)雜的規(guī)則,例如要識(shí)別圖片里的一只貓,需要構(gòu)建識(shí)別貓的輪廓、毛發(fā)、腿、眼睛、耳朵等一系列的規(guī)則,并把它們整合在一起。但在實(shí)踐中,這樣的方法過于復(fù)雜,可行度不高。
如果用機(jī)器學(xué)習(xí)來識(shí)別貓,你不需要寫規(guī)則,而是給一個(gè)統(tǒng)計(jì)引擎提供數(shù)據(jù)和例子,這個(gè)引擎就會(huì)生成一個(gè)具有分辨能力的模型。然后你給它10萬張標(biāo)有 “貓”的圖片和10萬張標(biāo)有 “不是貓 ”的圖片,機(jī)器就能分辨出它們的區(qū)別。機(jī)器學(xué)習(xí)用數(shù)據(jù)中自動(dòng)確定的模式取代了手寫的邏輯步驟,對(duì)于一些非常廣泛的問題,機(jī)器學(xué)習(xí)的效果會(huì)更好,例如在計(jì)算機(jī)視覺、文字和語音方面,它都有非常典型的用例。
對(duì)于機(jī)器學(xué)習(xí),你需要多少數(shù)量的數(shù)據(jù)才能達(dá)到目標(biāo)是一個(gè)浮動(dòng)的數(shù)字,有一些研究方向是讓機(jī)器學(xué)習(xí)使用更小的數(shù)據(jù)集就可以完成工作,但是在目前,更多的數(shù)據(jù)幾乎總是能得到更好的結(jié)果。
巨頭擁有很多數(shù)據(jù),這會(huì)幫助它們壟斷么?
因此,問題來了:如果機(jī)器學(xué)習(xí)可以重構(gòu)很多重要的事情,并且數(shù)據(jù)越多機(jī)器學(xué)習(xí)就給你越好的結(jié)果。那么,是否意味著已經(jīng)是巨頭,擁有巨量數(shù)據(jù)的公司會(huì)變得更加強(qiáng)大?這種贏家通吃的效應(yīng)會(huì)有多強(qiáng)?因?yàn)檫@背后的道理似乎很清楚:“更多的數(shù)據(jù)=更準(zhǔn)確的模型=更好的產(chǎn)品=更多的用戶=更多的數(shù)據(jù)”。于是有一些說法就會(huì)出現(xiàn):“谷歌/Facebook/亞馬遜擁有所有的數(shù)據(jù),中國擁有所有的數(shù)據(jù),那些擁有大量數(shù)據(jù)的科技公司和人口眾多,數(shù)據(jù)豐富的國家將在競爭中獲得優(yōu)勢(shì)?!?/p>
某種程度上,這能成立。
不過,雖然機(jī)器學(xué)習(xí)需要大量的數(shù)據(jù),但你使用的數(shù)據(jù)必須是非常具體的,只有這樣才能解決特定的問題。GE有很多燃?xì)廨啓C(jī)的遙測(cè)數(shù)據(jù),Google有很多搜索數(shù)據(jù),Amex有很多信用卡欺詐數(shù)據(jù)。你不能用渦輪機(jī)的數(shù)據(jù)作為例子來發(fā)現(xiàn)欺詐性交易,也不能用網(wǎng)絡(luò)搜索的數(shù)據(jù)來發(fā)現(xiàn)即將出現(xiàn)故障的燃?xì)廨啓C(jī)。也就是說,機(jī)器學(xué)習(xí)是一種通用的技術(shù),你既能用它來欺詐監(jiān)測(cè)也能進(jìn)行人臉識(shí)別,但是用它構(gòu)建的具體應(yīng)用互相之間是不通用的。每一個(gè)特定的模型或應(yīng)用只能做一件事。
這和之前的自動(dòng)化技術(shù)普及大同小異:就如洗衣機(jī)只能洗衣服不能洗完一樣,機(jī)器學(xué)習(xí)支持的翻譯程序也不能識(shí)別貓的圖片。你構(gòu)建的應(yīng)用程序和這些應(yīng)用程序需要的數(shù)據(jù)集是非常具體的,他們只會(huì)勝任特定的任務(wù)(當(dāng)然,現(xiàn)在有一些前沿研究試圖使某些數(shù)據(jù)集能夠擁有更廣泛的通用性。)
所以,利用機(jī)器學(xué)習(xí)可以實(shí)現(xiàn)的應(yīng)用是非常廣泛而分散的。谷歌不會(huì)“擁有所有的數(shù)據(jù)”,它只會(huì)擁有谷歌自己的數(shù)據(jù)。谷歌會(huì)利用機(jī)器學(xué)習(xí)技術(shù)獲得更好的搜索結(jié)果,GE獲得更好的引擎遙測(cè),沃達(dá)豐獲得更好的通話模式分析和網(wǎng)絡(luò)規(guī)劃,而這些都是不同公司建立的不同業(yè)務(wù)和功能。谷歌可以利用機(jī)器學(xué)習(xí)讓它自己的業(yè)務(wù)變得更好,但不意味著谷歌可以利用機(jī)器學(xué)習(xí)壟斷一切業(yè)務(wù)。
也就是說,機(jī)器學(xué)習(xí)可以讓每個(gè)行業(yè)的大公司變得更強(qiáng)大沃達(dá)豐,GE,谷歌擁有各自行業(yè)“所有的數(shù)據(jù)”,這會(huì)讓他們擁有更強(qiáng)的競爭優(yōu)勢(shì),讓已經(jīng)存在的護(hù)城河變的更深。但是問題其實(shí)也不那么簡單,我們可以提出疑問:到底誰擁有數(shù)據(jù),這些數(shù)據(jù)到底多有用,在什么層面上它是有效的,怎樣去聚合與分析它們才是正確的?
如何聚合與分析數(shù)據(jù)才是有意義的?
作為一個(gè)公司的創(chuàng)始人,可以思考以下的問題:作為一家行業(yè)公司,你是否有收集和管理好自己的數(shù)據(jù),并建立機(jī)器學(xué)習(xí)系統(tǒng)來分析它,還是說你找了對(duì)口的AI供應(yīng)商來做這件事;你的供應(yīng)商提供的是一個(gè)已經(jīng)在別的數(shù)據(jù)集上訓(xùn)練好的成品,還是根據(jù)你的數(shù)據(jù)定制訓(xùn)練,或者將你的數(shù)據(jù)與其他數(shù)據(jù)集混合起來一起訓(xùn)練?你的供應(yīng)商是否需要你的數(shù)據(jù)來優(yōu)化模型,還是說整個(gè)行業(yè)的數(shù)據(jù)已經(jīng)非常豐富,用現(xiàn)成的數(shù)據(jù)集就已足夠?在業(yè)務(wù)的不同部分,不同的行業(yè),不同的細(xì)分業(yè)務(wù)中,這些問題的答案是不同的。
換到另一端,如果你是一家AI創(chuàng)業(yè)公司,要切入某個(gè)細(xì)分行業(yè)解決實(shí)際問題,那么有兩個(gè)關(guān)于數(shù)據(jù)的基本問題:如何獲得你的第一個(gè)數(shù)據(jù)集來訓(xùn)練你的模型,并以此來獲得你的第一個(gè)客戶,另外你到底需要多少數(shù)據(jù)?
第二個(gè)問題可以分解成很多問題:是用相對(duì)較少的、獲取相當(dāng)容易的數(shù)據(jù)集(但很多競爭對(duì)手也能獲?。﹣斫鉀Q問題,還是用更難獲取,規(guī)模更大的數(shù)據(jù)集,如果是后一種,是否可以從網(wǎng)絡(luò)效應(yīng)中獲益,從而形成贏家通吃的態(tài)勢(shì)?以此構(gòu)建的產(chǎn)品,是會(huì)隨著數(shù)據(jù)越來越多,變得越來越好,還是有一條S曲線?
這取決于以下這些因素:
有些數(shù)據(jù)集對(duì)企業(yè)或產(chǎn)品來說是獨(dú)一無二的,或者能提供強(qiáng)大的專有優(yōu)勢(shì)。GE的發(fā)動(dòng)機(jī)遙測(cè)數(shù)據(jù)可能對(duì)分析羅羅的航空發(fā)動(dòng)機(jī)沒有什么用處,即便有用處,它們也不會(huì)分享。這可能就是一個(gè)創(chuàng)業(yè)機(jī)會(huì),但同時(shí)也是很多大公司內(nèi)部IT和外包項(xiàng)目承包商眼饞的地方。
有些數(shù)據(jù)集則更具有共性,可以適用于更多的行業(yè)和公司?!斑@個(gè)客戶有些奇怪”可能適用于所有信用卡公司,“客戶聽起來很生氣”則適用于大多數(shù)呼叫中心。這種共性問題可以誕生很多公司,他們可以基于此解決不同行業(yè)的共性問題,這里有數(shù)據(jù)的網(wǎng)絡(luò)效應(yīng)。
但是也可能出現(xiàn)另一種情況,到了某種分界點(diǎn)后,模型已經(jīng)很成熟,廠商不需要更多的數(shù)據(jù),就已經(jīng)能夠很好的構(gòu)建產(chǎn)品了。
AI創(chuàng)業(yè),到底應(yīng)該怎么切入?
在實(shí)際的創(chuàng)業(yè)中,隨著機(jī)器學(xué)習(xí)的應(yīng)用范圍越來越廣,創(chuàng)業(yè)公司總能在細(xì)分領(lǐng)域找到切入點(diǎn)。例如Everlaw進(jìn)入的是法律相關(guān)的領(lǐng)域:一場官司會(huì)產(chǎn)生堆積如山的紙質(zhì)卷宗,機(jī)器學(xué)習(xí)可以對(duì)這些卷宗進(jìn)行分析,一方面,可以找出具有共性的卷宗,例如“包含焦慮情緒的文件”,另一方面可以做聚類分析,找到和選出的某一份卷宗差不多的其他卷宗。而這些不需要根據(jù)某一個(gè)特定案件的數(shù)據(jù)訓(xùn)練,用一些行業(yè)通用的數(shù)據(jù)集就可以解決。
Drishti,是一家利用計(jì)算機(jī)視覺來分析工廠生產(chǎn)線的公司,它的其中一些能力需要客戶公司的數(shù)據(jù)進(jìn)行訓(xùn)練,但它的能力具有較強(qiáng)的通用性,可以跨行業(yè)工作。
舉一個(gè)極端的例子,我最近接觸到一家大型的汽車主機(jī)廠,他們利用機(jī)器學(xué)習(xí)來優(yōu)化爆胎監(jiān)測(cè)傳感器,使它更加準(zhǔn)確。這些訓(xùn)練數(shù)據(jù)是他們自己制造的,做了很多爆胎和沒有爆胎的試驗(yàn)。很明顯,想要得到數(shù)據(jù),你總能獲得數(shù)據(jù),只是數(shù)據(jù),并不能構(gòu)建護(hù)城河。
因此,回到核心,對(duì)于機(jī)器學(xué)習(xí)創(chuàng)業(yè)公司,都要面對(duì)兩個(gè)問題:如何獲得數(shù)據(jù),需要多少數(shù)據(jù)?但這些只是技術(shù)性問題:你更應(yīng)該考慮你的目標(biāo)市場是什么,如何進(jìn)入市場,你要解決的問題對(duì)你的客戶有多大價(jià)值,等等。也就是說,很快就不會(huì)再有 “人工智能 ”創(chuàng)業(yè)公司了,它們將是工業(yè)流程分析公司,法律平臺(tái)公司,或者銷售優(yōu)化公司等等。事實(shí)上,機(jī)器學(xué)習(xí)的普及并不意味著谷歌變強(qiáng),而是意味著各種創(chuàng)業(yè)公司可以比以前更快地用這種先進(jìn)技術(shù)來建立業(yè)務(wù)。
我用一個(gè)比喻來做最后的總結(jié),我們可以把機(jī)器學(xué)習(xí)比作數(shù)據(jù)庫。數(shù)據(jù)庫非常重要,它是一種基礎(chǔ)設(shè)施,融入了各種各樣的場景。如果你不使用它,而你的競爭對(duì)手使用它,你就會(huì)落后。在它還是一個(gè)新鮮事物時(shí),有的公司曾經(jīng)依靠這種技術(shù)獲得過競爭優(yōu)勢(shì),沃爾瑪?shù)牟糠殖晒碜杂谑褂脭?shù)據(jù)庫,從而可以更有效的管理庫存和物流。但在今天,如果你創(chuàng)辦了一家零售商,并說,我們正在使用最先進(jìn)的數(shù)據(jù)庫技術(shù);那這并不會(huì)讓你變得與眾不同。數(shù)據(jù)庫已經(jīng)變成了一種普遍化的技術(shù)基礎(chǔ)設(shè)施,它不再有特殊性,同樣的事情在未來也會(huì)發(fā)生在機(jī)器學(xué)習(xí)上。
責(zé)任編輯:tzh
-
AI
+關(guān)注
關(guān)注
87文章
31054瀏覽量
269407 -
人工智能
+關(guān)注
關(guān)注
1792文章
47387瀏覽量
238900 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132757
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論