大數(shù)據(jù)工程師做什么?
用阿里巴巴集團研究員薛貴榮的話來說,大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實時的,規(guī)模海量且形式不規(guī)整,無章法可循,因此“會玩”這些數(shù)據(jù)的人就很重要。
沈志勇認為如果把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等?!?/p>
因此分析歷史、預(yù)測未來、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時最重要的三大任務(wù)。通過這三個工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。
找出過去事件的特征
大數(shù)據(jù)工程師一個很重要的工作,就是通過分析數(shù)據(jù)來找出過去事件的特征。比如,騰訊的數(shù)據(jù)團隊正在搭建一個數(shù)據(jù)倉庫,把公司所有網(wǎng)絡(luò)平臺上數(shù)量龐大、不規(guī)整的數(shù)據(jù)信息進行梳理,總結(jié)出可供查詢的特征,來支持公司各類業(yè)務(wù)對數(shù)據(jù)的需求,包括廣告投放、游戲開發(fā)、社交網(wǎng)絡(luò)等。
找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認識消費者。通過分析用戶以往的行為軌跡,就能夠了解這個人,并預(yù)測他的行為?!澳憧梢灾浪鞘裁礃拥娜恕⑺哪昙o、興趣愛好,是不是互聯(lián)網(wǎng)付費用戶、喜歡玩什么類型的游戲,平常喜歡在網(wǎng)上做什么事情。”騰訊云計算有限公司北京研發(fā)中心總經(jīng)理鄭立峰對《第一財經(jīng)周刊》說。下一步到了業(yè)務(wù)層面,就可以針對各類人群推薦相關(guān)服務(wù),比如手游,或是基于不同特征和需求衍生出新的業(yè)務(wù)模式,比如微信的電影票業(yè)務(wù)。
預(yù)測未來可能發(fā)生的事情
通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測未來的消費趨勢。在阿里媽媽的營銷平臺上,工程師正試圖通過引入氣象數(shù)據(jù)來幫助淘寶賣家做生意?!氨热缃衲晗奶觳粺?,很可能某些產(chǎn)品就沒有去年暢銷,除了空調(diào)、電扇,背心、游泳衣等都可能會受其影響。那么我們就會建立氣象數(shù)據(jù)和銷售數(shù)據(jù)之間的關(guān)系,找到與之相關(guān)的品類,提前警示賣家周轉(zhuǎn)庫存?!毖F榮說。
在百度,沈志勇支持“百度預(yù)測”部分產(chǎn)品的模型研發(fā),試圖用大數(shù)據(jù)為更廣泛的人群服務(wù)。已經(jīng)上線的包括世界杯預(yù)測、高考預(yù)測、景點預(yù)測等。以百度景點預(yù)測為例,大數(shù)據(jù)工程師需要收集所有可能影響一段時間內(nèi)景點人流量的關(guān)鍵因素進行預(yù)測,并為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?
找出最優(yōu)化的結(jié)果
根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過數(shù)據(jù)分析來達到不同的目的。
以騰訊來說,鄭立峰認為能反映大數(shù)據(jù)工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產(chǎn)品經(jīng)理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據(jù)經(jīng)驗進行判斷,但如今大數(shù)據(jù)工程師可以通過大范圍地實時測試—比如,在社交網(wǎng)絡(luò)產(chǎn)品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統(tǒng)計一段時間內(nèi)的點擊率和轉(zhuǎn)化率,以此幫助市場部做出最終選擇。
作為電商的阿里巴巴,則希望通過大數(shù)據(jù)鎖定精準的人群,幫助賣家做更好的營銷?!拔覀兏诖氖悄隳苷业竭@樣一批人,比起現(xiàn)有的用戶,這些人對產(chǎn)品更感興趣。”薛貴榮說。一個淘寶的實例是,某人參賣家原來推廣的目標人群是產(chǎn)婦,但工程師通過挖掘數(shù)據(jù)之間的關(guān)聯(lián)性后發(fā)現(xiàn),針對孕婦群體投放的營銷轉(zhuǎn)化率更高。
B 需要具備的能力
數(shù)學(xué)及統(tǒng)計學(xué)相關(guān)的背景
就我們采訪過的BAT三家互聯(lián)網(wǎng)大公司來說,對于大數(shù)據(jù)工程師的要求都是希望是統(tǒng)計學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷。沈志勇認為,缺乏理論背景的數(shù)據(jù)工作者,更容易進入一個技能上的危險區(qū)域(Danger Zone)—一堆數(shù)字,按照不同的數(shù)據(jù)模型和算法總能捯飭出一些結(jié)果來,但如果你不知道那代表什么,就并不是真正有意義的結(jié)果,并且那樣的結(jié)果還容易誤導(dǎo)你?!爸挥芯邆湟欢ǖ睦碚撝R,才能理解模型、復(fù)用模型甚至創(chuàng)新模型,來解決實際問題。”沈志勇說。
計算機編碼能力
實際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的一些必備要素?!耙驗樵S多數(shù)據(jù)的價值來自于挖掘的過程,你必須親自動手才能發(fā)現(xiàn)金子的價值?!编嵙⒎逭f。
舉例來說,現(xiàn)在人們在社交網(wǎng)絡(luò)上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團隊中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉計算機處理大數(shù)據(jù)的方式。
對特定應(yīng)用領(lǐng)域或行業(yè)的知識
在顏莉萍看來,大數(shù)據(jù)工程師這個角色很重要的一點是,不能脫離市場,因為大數(shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價值。所以,在某個或多個垂直行業(yè)的經(jīng)歷能為應(yīng)聘者積累對行業(yè)的認知,對于之后成為大數(shù)據(jù)工程師有很大幫助,因此這也是應(yīng)聘這個崗位時較有說服力的加分項。
“他不能只是懂得數(shù)據(jù),還要有商業(yè)頭腦,不論對零售、醫(yī)藥、游戲還是旅游等行業(yè),能就其中某些領(lǐng)域有一定的理解,最好還是與公司的業(yè)務(wù)方向一致的,”就此薛貴榮還打了個比方,“過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認為他們是這個行業(yè)的專家。又比如對醫(yī)療行業(yè)了解的人,他在考慮醫(yī)療保險業(yè)務(wù)時,不僅會和人們醫(yī)院看病的記錄相關(guān),也會考慮飲食數(shù)據(jù),這些都是基于對該領(lǐng)域的了解?!?/p>
C 大數(shù)據(jù)工程師的職業(yè)發(fā)展
如何成為大數(shù)據(jù)工程師
由于目前大數(shù)據(jù)人才匱乏,對于公司來說,很難招聘到合適的人才—既要有高學(xué)歷,同時最好還有大規(guī)模數(shù)據(jù)處理經(jīng)驗。因此很多企業(yè)會通過內(nèi)部挖掘。
今年8月,阿里巴巴舉辦了一個大數(shù)據(jù)競賽,把天貓平臺上的數(shù)據(jù)拿出來,去除敏感問題后,放到云計算平臺上交予7000多支隊伍進行比賽,比賽分為內(nèi)部賽和外部賽?!巴ㄟ^這個方式來激勵內(nèi)部員工,同時也發(fā)現(xiàn)外部人才,讓各行業(yè)的大數(shù)據(jù)工程師涌現(xiàn)出來。”
顏莉萍建議,目前長期從事數(shù)據(jù)庫管理、挖掘、編程工作的人,包括傳統(tǒng)的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數(shù)據(jù)來進行判斷決策的管理者,比如某些領(lǐng)域的運營經(jīng)理等,都可以嘗試該職位,而各個領(lǐng)域的達人只要學(xué)會運用數(shù)據(jù),也可以成為大數(shù)據(jù)工程師。
薪酬待遇
作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說達到了同類的頂級。根據(jù)顏莉萍的觀察,國內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍表示,“大數(shù)據(jù)時代的到來很突然,在國內(nèi)發(fā)展勢頭激進,而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況?!痹诿绹?,大數(shù)據(jù)工程師平均每年薪酬高達17.5萬美元,而據(jù)了解,在國內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個級別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。
職業(yè)發(fā)展路徑
由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門一般都是扁平化的層級模式,大致分為數(shù)據(jù)分析師、資深研究員、部門總監(jiān)3個級別。大公司可能按照應(yīng)用領(lǐng)域的維度來劃分不同團隊,而在小公司則需要身兼數(shù)職。有些特別強調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官?!斑@個職位的大部分人會往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才。”顏莉萍說。另一方面,大數(shù)據(jù)工程師對商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場部,乃至上升為公司的高級管理層。
-
工程師
+關(guān)注
關(guān)注
59文章
1571瀏覽量
68555 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8896瀏覽量
137511
發(fā)布評論請先 登錄
相關(guān)推薦
評論