AI概念在2015年起就紅得發(fā)紫,不論是送外賣,搞團購,賣車,或是推薦莆田醫(yī)院的,是個公司都會標榜自己是搞人工智能的。
在21世紀的第二個十年,計算機專業(yè)相關(guān)的學(xué)生不說自己是搞AI算法的,同學(xué)聚會都抬不起頭,相親都沒機會。
隨便從一摞簡歷里抽出一份,一定會有AI、調(diào)參、CNN、LSTM這些關(guān)鍵詞。未來最賺錢的職業(yè),一定不是天橋貼膜,而是天橋調(diào)參,50塊錢一次,一調(diào)就靈:
NIPS會議,人滿為患,改改網(wǎng)絡(luò)結(jié)構(gòu),弄個激活函數(shù)就想水一篇paper; 到處都是AI算法的培訓(xùn)廣告,三個月,讓你年薪45萬!
在西二旗或望京的地鐵車廂里打個噴嚏,就能讓10個算法工程師第二天因為感冒請假。
誰也不知道這波熱潮還能持續(xù)多久,但筆者作為一線算法工程師,已經(jīng)能明顯感受到危機的味道: 以大紅大紫的圖像為例,圖像方向簡歷堆滿了HR的辦公臺,連小學(xué)生都在搞單片機和計算機視覺。
在筆者所在的公司,人工智能部門正在從早前研究院性質(zhì)的組織架構(gòu)分別向前臺和后臺遷移:前者進入業(yè)務(wù)部門,背上繁重的KPI,與外部競爭者貼身肉搏。
后者則完全融入基礎(chǔ)架構(gòu),像數(shù)據(jù)庫一樣普通和平凡。之前安逸的偏研究生活被打破, AI早已走下神壇。
以筆者愚見,對于一般的算法工程師,這種危機包含兩部分:一方面是來自人的競爭,大量便宜的畢業(yè)生和培訓(xùn)生涌入這個行業(yè),人才缺口被迅速填滿甚至飽和,未來的競爭會更激烈。
另一方面則是來自機器的競爭,大量算法工程師會很快被他們每天研究的算法所代替。 這兩者互相惡化,AI人才市場終會變成一片紅海。
1.連小學(xué)生都會寫模型
工具和框架本身的發(fā)展,讓設(shè)計模型所需的代碼寫得越來越簡潔。10年前從頭用C++和矩陣庫實現(xiàn)梯度下降還是有不小的門檻的,動輒上千行。而當今幾十行Keras甚至圖形化的模型構(gòu)建工具,讓小學(xué)生都能設(shè)計出可用的二分類模型。
強大的類庫吞噬了知識,掩蓋了內(nèi)部的復(fù)雜性,但也給從業(yè)者帶來了不小的惰性。從業(yè)者的技術(shù)水平,和使用模型的復(fù)雜程度關(guān)系不大,越是大牛,用的技術(shù)更底層更make sense。
不僅如此,深度學(xué)習(xí)本身的性質(zhì),造成了明顯的數(shù)學(xué)鴻溝。與SVM, 決策樹不同,由于模型存在大量的非線性和復(fù)雜的層次關(guān)系,且輸入信號(例如圖像,文本)也很復(fù)雜,因此嚴格的數(shù)學(xué)論證是需要極高的抽象技巧的。
該方法為什么好,在什么類型的數(shù)據(jù)上好,有時連作者都在拍腦袋,很多state of arts的方法,成了口口相傳的經(jīng)驗和trick,而非嚴謹?shù)膖heory。 連batch normlization(批規(guī)范化,只包含四個初中數(shù)學(xué)級別的簡單公式)為何有效,都被爭論了好幾年。
只有鳳毛棱角的專家,能深入到模型最深處,用數(shù)值分析和理論證明給出嚴謹?shù)拇鸢浮?大部分人在入門后便進入漫長的平臺期,美其名曰參數(shù)調(diào)優(yōu),實際就像太上老君煉丹一樣。
我們把這種現(xiàn)象繪制成下面的AI學(xué)習(xí)曲線,左側(cè)是稍顯陡峭的入門期,需要學(xué)習(xí)基本的矩陣論,微積分和編程,之后便是漫長的平臺期。
隨著復(fù)雜性越來越高,其學(xué)習(xí)曲線也越來越陡峭,大部分人也就止步于此。 越來越易用的工具,讓曲線的斜率變大,入門期變短,卻并不能改變右側(cè)的陡峭程度。
圖注:AI學(xué)習(xí)曲線
入門容易深入難,這條曲線同時也能描述AI人才的收入水平。而真正處于危機的,莫過于夾在中間的蕓蕓眾人:對理論一知半解,對工具非常依賴??商娲院軓姡坏〢I浪潮過去,就知道誰是在裸泳。
市場和業(yè)務(wù)變化越來越快,能有哪些核心業(yè)務(wù),是能讓工程師靜心調(diào)個一年半載的呢?
當一個從培訓(xùn)學(xué)校里出來的人都能做模型時,有多少業(yè)務(wù)能讓公司多花兩三倍的人力成本,而僅帶來1%的性能提升呢?
2.機器都能調(diào)參,要你干嗎?
面向大眾AI科普節(jié)目,最常討論的便是“AI時代如何不被機器所取代”。很不幸,最容易且最快被取代的反而是算法工程師。
算法崗比工程崗更容易被取代。 在現(xiàn)有技術(shù)下,由于業(yè)務(wù)需求的復(fù)雜性, 自動生成一套軟件App或服務(wù)幾乎不可能的(否則就已經(jīng)進入強人工智能時代了),但模型太容易被形式化地定義了。
根據(jù)數(shù)據(jù)性質(zhì),自動生成各個領(lǐng)域的端到端(end2end)的模型也逐漸在工業(yè)上可用了:圖像語音和廣告推薦的飛速發(fā)展,直接套用即可。理論和經(jīng)驗越來越完善,人變得越來越可替代。
特征可以自動生成和優(yōu)選,特征工程師失業(yè)了; 深度網(wǎng)絡(luò)采用經(jīng)典結(jié)構(gòu)即能滿足一般業(yè)務(wù)需求,參數(shù)搜索在AutoML下變得越來越方便,調(diào)參工程師的飯碗也丟了; 以前需要大力氣搭建的數(shù)據(jù)回流和預(yù)測的鏈路,已經(jīng)成了公司的基礎(chǔ)組件,數(shù)據(jù)工程師也沒事干了。
此處引用老板經(jīng)常說的一句話:機器都能干了,要你干嗎?
從目前AI熱門論文的情況看,廣告推薦領(lǐng)域已經(jīng)逐漸成熟,很多技巧沉淀為一整套方法論,已進入平臺期。
下一個即將被攻陷的領(lǐng)域應(yīng)該是圖像;而文本由于其內(nèi)在的抽象性和模糊性,應(yīng)該是算法工程師最后的一塊凈土,但這個門檻,五年內(nèi)就會有爆發(fā)式的突破。
3.如何最優(yōu)化職業(yè)發(fā)展?
人工智能已經(jīng)火了至少五年,它在未來五年是否火爆我們不能確定,但一定會更加兩極化:偏基礎(chǔ)的功能一般程序員就能搞定,像白開水一樣普通。而針對更復(fù)雜模型甚至強人工智能的研究會成為少數(shù)人的專利。
在一般的技術(shù)公司,傳統(tǒng)意義的軟件開發(fā)和產(chǎn)品設(shè)計,遠比AI算法的需求來的多。
算法永遠是錦上添花,而非雪中送炭,再好的算法也拯救不了落后的業(yè)務(wù)和商業(yè)模式。一旦經(jīng)濟下行,企業(yè)首要干掉的就是錦上添花且人力成本較高的部分。
如果你是頂級的算法專家,這樣的問題根本不需擔(dān)心。但是,對大部分人來說,如何找到自己的梯度上升方向,實現(xiàn)最優(yōu)的人生優(yōu)化器呢?
筆者給出一些不成熟的小建議,供讀者拋磚引玉,基本也是往兩頭走:
首先是深入原理和底層,類似TensorFlow的核心代碼至少要讀一遍吧?就算沒有嚴格的理論基礎(chǔ),最起碼也不能瞎搞啊。
切莫不能被工具帶來的易用性迷惑雙眼。要熟悉工具箱里每種函數(shù)的品性,對流動在模型里的數(shù)據(jù)有足夠的嗅覺,在調(diào)參初期就能對不靠譜的參數(shù)快速剪枝。
按個人理解,做算法帶來的最大收獲是科學(xué)精神和實驗思維,這是做工程很難培養(yǎng)出來的。以前看論文看了introduction和模型設(shè)計,草草地讀一下實驗結(jié)果就完事兒了。
殊不知AB實驗設(shè)計很可能才是論文的核心:實驗樣本是否無偏,實驗設(shè)計是否嚴謹,核心效果是否合理,是否能證明論文結(jié)論。
也許一行代碼和一個參數(shù)的修改,背后是艱辛的思考和實驗,做算法太需要嚴謹和縝密的思維了。即使未來不做算法,這些經(jīng)驗都會是非常寶貴的財富。
再者是盡早面向領(lǐng)域,面向人和業(yè)務(wù)。AI本身只是工具,它的抽象性并不能讓其成為各個領(lǐng)域的靈丹妙藥。
如果不能和AI專家在深度上競爭,就在業(yè)務(wù)領(lǐng)域?qū)>钔?,擁有比業(yè)務(wù)人員更好的數(shù)據(jù)敏感度,成為跨界專家?,F(xiàn)在已經(jīng)有大量AI+金融、AI+醫(yī)療、AI+體育的成功案例。
人能熟悉領(lǐng)域背后的數(shù)據(jù),背后的人性,這是機器短時間內(nèi)無法代替的,跨界帶來的組合爆炸,也許暗含著危機中的機會吧。
最后感慨一下,同樣是80后,年齡相差無幾,有人已是副總裁,有人帶了幾個人的小團隊,有人還在基層苦苦掙扎,軌跡在畢業(yè)時分叉,幾年后早已滄海桑田。
作者簡介:趙一鳴,
-
工程師
+關(guān)注
關(guān)注
59文章
1571瀏覽量
68553 -
算法
+關(guān)注
關(guān)注
23文章
4615瀏覽量
93015 -
人工智能
+關(guān)注
關(guān)注
1792文章
47372瀏覽量
238857
發(fā)布評論請先 登錄
相關(guān)推薦
評論