1 研究業(yè)務(wù)的技術(shù)特性要求
大數(shù)據(jù)相關(guān)技術(shù)和資源眾多,先從市場研究的業(yè)務(wù)特點(diǎn)來分析其對(duì)技術(shù)性的一些要求:
1.?數(shù)據(jù)規(guī)模而言,因?yàn)榭蛻糁饕珎鹘y(tǒng)企業(yè)客戶(非互聯(lián)網(wǎng)類),受其業(yè)務(wù)限制,可分析的大數(shù)據(jù)規(guī)模不會(huì)超過百億/TB級(jí),不像互聯(lián)網(wǎng)企業(yè)達(dá)到千億/PB級(jí)。
2.?數(shù)據(jù)格式還是以結(jié)構(gòu)化數(shù)據(jù)為主,部分非結(jié)構(gòu)化文本(如互聯(lián)網(wǎng)/社交方面為主)。
3.?處理模式上,因?yàn)榉治鲞^程是多次迭代和不斷深入,不需要實(shí)時(shí)出結(jié)論,所以離線非實(shí)時(shí)、批量化/AdHoc結(jié)合的OLAP分析是主要模式。這個(gè)和很多互聯(lián)網(wǎng)企業(yè)的實(shí)時(shí)大數(shù)據(jù)業(yè)務(wù)要求不同。
4.?分析的屬性維度多樣,經(jīng)常變化,關(guān)注整體特性。所以對(duì)數(shù)據(jù)管理中的多字段檢索和匯總統(tǒng)計(jì)的能力要求較高。
基于以上的技術(shù)要求,我們來討論研究業(yè)務(wù)適合的技術(shù)理論與資源。
2主要技術(shù)理論
在整個(gè)大數(shù)據(jù)相關(guān)技術(shù)體系中,研究公司大數(shù)據(jù)業(yè)務(wù)涉及的技術(shù)領(lǐng)域主要如下:
分布式計(jì)算(Distributed computing)
在大數(shù)據(jù)領(lǐng)域,大部分?jǐn)?shù)據(jù)存儲(chǔ)和高速計(jì)算都離不開分布式計(jì)算。日常生活中,我們一臺(tái)電腦可完成所有計(jì)算和數(shù)據(jù)存儲(chǔ),當(dāng)覺得不夠用時(shí),通常是更換更快的CPU和更大硬盤來解決。但當(dāng)計(jì)算速度和存儲(chǔ)要求越來越高時(shí)(如大數(shù)據(jù)環(huán)境下對(duì)TB甚至PB級(jí)數(shù)據(jù)管理計(jì)算),這種通過提升單臺(tái)服務(wù)器性能的集中模式會(huì)導(dǎo)致服務(wù)器(如使用在運(yùn)營商話單計(jì)費(fèi)、銀行交易系統(tǒng)的小型機(jī))成本極為昂貴,且最終可能仍然無法滿足要求。另外一種思路,則是將大的計(jì)算需求分?jǐn)偟蕉嗯_(tái)計(jì)算機(jī)一起來完成(如同一個(gè)大卡車的載貨被分到很多臺(tái)小卡車來運(yùn)輸一樣)。相應(yīng)的分布式計(jì)算(包括存儲(chǔ))就是通過多臺(tái)(成千上萬甚至百萬)廉價(jià)、低性能服務(wù)器來實(shí)現(xiàn)超高的計(jì)算存儲(chǔ)能力。在分布式計(jì)算系統(tǒng)中,任何計(jì)算和存儲(chǔ)請(qǐng)求,被自動(dòng)分為多個(gè)小的任務(wù),分?jǐn)偟礁鞣?wù)器上并行完成。同時(shí),數(shù)據(jù)分布在多個(gè)服務(wù)器節(jié)點(diǎn)并有備份,這樣即使部分服務(wù)器損壞并不影響系統(tǒng)運(yùn)行。
相比集中模式,分布式計(jì)算成本和門檻更低,易擴(kuò)展并具高可靠性。成為近10年來IT體系架構(gòu)最重要的技術(shù),支撐起了整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)和業(yè)務(wù),也是云計(jì)算和大數(shù)據(jù)的支撐技術(shù)之一。
機(jī)器學(xué)習(xí)(Machine Learning)
如果說分布式計(jì)算是IT體系架構(gòu)的明星,那機(jī)器學(xué)習(xí)就是智能數(shù)據(jù)分析的利器了。作為人工智能的核心研究領(lǐng)域之一,機(jī)器學(xué)習(xí)是為了讓計(jì)算機(jī)通過經(jīng)驗(yàn)(先驗(yàn)知識(shí)數(shù)據(jù))來模仿人類的學(xué)習(xí)能力,從而獲得計(jì)算機(jī)系統(tǒng)能力的提升。上世紀(jì)末,隨著統(tǒng)計(jì)學(xué)習(xí)理論出現(xiàn)和發(fā)展,機(jī)器學(xué)習(xí)從IT技術(shù)逐步擴(kuò)展為一種交叉學(xué)科,在很多非IT領(lǐng)域也得到廣泛應(yīng)用。雖然相關(guān)算法在理論上需要較多的知識(shí)背景,但不要覺得它是多么高大上,比如研究行業(yè)常用到的決策樹、分類(有監(jiān)督學(xué)習(xí))和聚類(無監(jiān)督學(xué)習(xí)),實(shí)際都是機(jī)器學(xué)習(xí)的算法子集(其他常用的還有Bayes網(wǎng)絡(luò)、支持向量機(jī)和神經(jīng)元網(wǎng)絡(luò)等)?;谟?xùn)練-建模-分類-優(yōu)化的迭代生成模式,使得機(jī)器學(xué)習(xí)在實(shí)際的分析性能和模型適用性方面,具有較大的優(yōu)勢(shì)。近兩年來,基于多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning)理論在一些領(lǐng)域(自然語言、音視頻識(shí)別)具有突出的表現(xiàn),有望進(jìn)一步推動(dòng)機(jī)器學(xué)習(xí)的深入分析能力。
大數(shù)據(jù)領(lǐng)域,機(jī)器學(xué)習(xí)由于其在數(shù)據(jù)分析方面的先天優(yōu)勢(shì)能力,當(dāng)仁不讓的成為相關(guān)數(shù)據(jù)分析的核心技術(shù)。該方面的技術(shù)水平成為當(dāng)前衡量大數(shù)據(jù)分析能力的重要標(biāo)志。
自然語言處理(Natural Language Process)
大數(shù)據(jù)的多種數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)日趨龐雜和重要,其代表就是自然語言形式的語義內(nèi)容(搜索、新聞、社交媒體、電商評(píng)論等),而對(duì)其內(nèi)容的分析(如文本挖掘)離不開自然語言處理技術(shù)。相關(guān)學(xué)術(shù)學(xué)科叫計(jì)算語言學(xué),作為計(jì)算機(jī)與語言的交叉學(xué)科,它以統(tǒng)計(jì)性、量化的方式來研究語言的規(guī)律。自然語言處理涉及分詞、詞法、句法、語法、語義分析等多個(gè)層面,相當(dāng)復(fù)雜。而當(dāng)前商業(yè)性應(yīng)用,中文的主要集中在分詞、詞頻統(tǒng)計(jì)、關(guān)鍵特征抽取等淺層分析、情感傾向與主題模型(如LDA/PLSA等)和機(jī)器翻譯等方面。傳統(tǒng)研究業(yè)務(wù)中,也可用于開放題/討論文本的自動(dòng)分析編碼。實(shí)際上,NLP的應(yīng)用領(lǐng)域應(yīng)該可以更大。舉一個(gè)有趣的例子,曹雪芹的《紅樓夢(mèng)》最后40章常被認(rèn)為是高鶚續(xù)作,但相關(guān)觀點(diǎn)的紅學(xué)家/語言學(xué)家并不能有效證明。借助計(jì)算語言學(xué),可對(duì)前80章和后40章的內(nèi)容進(jìn)行分析(包括用詞習(xí)慣、句法、文法等等),可得到兩部分文章在行文風(fēng)格的多種量化指標(biāo),通過其差異就能判斷是否為不同的作者。計(jì)算語言學(xué)的理論基礎(chǔ)感覺近年來進(jìn)展不大,但深度學(xué)習(xí)近來的表現(xiàn)有望幫助其在應(yīng)用性能方面有所提升。
數(shù)據(jù)挖掘(Data Mining)
數(shù)據(jù)挖掘在非大數(shù)據(jù)時(shí)代(海量數(shù)據(jù))就已經(jīng)廣泛使用(如CRM的用戶分析、產(chǎn)品關(guān)聯(lián)分析)。嚴(yán)格的說,其并不算是一種技術(shù),而是一種分析模式:綜合利用機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)和自然語言處理等多種技術(shù)方法,從數(shù)據(jù)中獲得相關(guān)的結(jié)果。在大數(shù)據(jù)時(shí)代,雖然數(shù)據(jù)的挖掘往往意味著數(shù)據(jù)金礦,但筆者認(rèn)為,挖掘技術(shù)必須與業(yè)務(wù)分析思路緊密結(jié)合,才會(huì)發(fā)揮出較大的價(jià)值。
其他關(guān)鍵技術(shù)
在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)社交媒體數(shù)據(jù)(尤其是用戶間的關(guān)系數(shù)據(jù))體現(xiàn)出了前所未有的價(jià)值。對(duì)上億用戶錯(cuò)綜復(fù)雜的關(guān)系網(wǎng)絡(luò)的快速分析,正是圖計(jì)算理論擅長之處。圖計(jì)算作為新興的技術(shù)理論,主要聚焦節(jié)點(diǎn)之間關(guān)系的深度研究,其不僅在社交用戶分析上價(jià)值很大,在惡意欺詐檢測、生命科學(xué)等領(lǐng)域都有巨大應(yīng)用前景。
而隨著音視頻數(shù)據(jù)的日益普及和傳播,針對(duì)此類大數(shù)據(jù)的處理(比如語音識(shí)別/圖像、視頻識(shí)別分析)技術(shù),也在大數(shù)據(jù)業(yè)務(wù)中逐步開始使用。這些其實(shí)都是模式識(shí)別(Pattern Recognition)技術(shù)的應(yīng)用,核心問題是特征(維度較高)的抽取和相似/匹配性比較。
3主要技術(shù)資源與工具
在前面了解的技術(shù)理論之上,我們進(jìn)一步介紹大數(shù)據(jù)業(yè)務(wù)中可使用的技術(shù)資源和工具。相關(guān)說明按業(yè)務(wù)流程順序展開,以主流、免費(fèi)的開源資源為主(主要為筆者熟悉了解的,其他資源不做相關(guān)的評(píng)論和推薦)
(1)分布式計(jì)算框架
分布式計(jì)算框架用于完成分布式計(jì)算所需的底層任務(wù)管理和調(diào)度等核心工作,是大數(shù)據(jù)計(jì)算體系結(jié)構(gòu)的基石。當(dāng)前主流的開源框架包括:
Hadoop和Map/Reduce。借鑒Google的分布式系統(tǒng)發(fā)展而來。09年筆者使用其早期版本時(shí)問題頗多,但幾年后其已經(jīng)成為事實(shí)的行業(yè)標(biāo)準(zhǔn),并衍生出龐大的上層生態(tài)圈。其Map/Reduce計(jì)算范式解決分布式調(diào)度和結(jié)果歸并的問題,大大降低了分布式程序開發(fā)的難度。Hadoop擅長的離線批量式處理適合研究公司的基礎(chǔ)數(shù)據(jù)計(jì)算(如匯總和統(tǒng)計(jì)),其缺點(diǎn)是響應(yīng)遲滯,速度慢,維護(hù)和編程也相對(duì)麻煩。
Spark.新的分布式開源框架,在迭代計(jì)算(如機(jī)器學(xué)習(xí))場景下比Hadoop快幾十倍,同時(shí)提供了MLLib機(jī)器學(xué)習(xí)、Spark Sql查詢和GraphX圖計(jì)算眾多大數(shù)據(jù)工具包,也更易于維護(hù)和編程。眾多優(yōu)點(diǎn)使得其近一年發(fā)展極快,受到了廣泛的支持,預(yù)計(jì)將代替Hadoop成為新的數(shù)據(jù)計(jì)算標(biāo)準(zhǔn)。Spark比Hadoop更加適合研究公司。在HCR(慧辰資訊)大數(shù)據(jù)平臺(tái)中,其作為大數(shù)據(jù)分析計(jì)算的核心,完成機(jī)器學(xué)習(xí)的相關(guān)處理。
Strom.Hadoop和Spark都適合非實(shí)時(shí)處理,對(duì)于需要實(shí)時(shí)響應(yīng)的業(yè)務(wù)(比如DSP/RTB廣告實(shí)時(shí)競價(jià),電商平臺(tái)實(shí)時(shí)購物推薦)場景,則是Storm流式計(jì)算框架的天下,高速和高容錯(cuò)使得它已經(jīng)在此類業(yè)務(wù)環(huán)境中成為基本配置,如果研究公司存在類似實(shí)時(shí)處理特性的業(yè)務(wù)也可以考慮使用。
(2)數(shù)據(jù)管理
數(shù)據(jù)管理主要包括存儲(chǔ)和快速檢索。大數(shù)據(jù)環(huán)境中,研究業(yè)務(wù)相關(guān)的數(shù)據(jù)更多以數(shù)據(jù)庫而不是文件方式存儲(chǔ),所以這里主要介紹幾類數(shù)據(jù)庫的選擇
關(guān)系數(shù)據(jù)庫(Mysql/Oracle)傳統(tǒng)的關(guān)系數(shù)據(jù)庫雖然對(duì)大數(shù)據(jù)的支持能力有些不足,但就研究公司而言,億級(jí)以下的結(jié)構(gòu)化數(shù)據(jù)的分析仍然會(huì)是未來分析的重要場景,此時(shí)使用關(guān)系數(shù)據(jù)庫(無論免費(fèi)的Mysql還是商業(yè)的Oracle)完全沒有問題。其便于管理,工具成熟,適合研究中各種多維度的統(tǒng)計(jì)分析。同時(shí),也適合在大數(shù)據(jù)業(yè)務(wù)中作為數(shù)據(jù)倉庫存儲(chǔ)大數(shù)據(jù)的中間分析結(jié)果,便于后續(xù)更上層分析。
鍵值數(shù)據(jù)庫(HBase/Cassandra)真正意義上的大數(shù)據(jù)數(shù)據(jù)庫,基于分布式計(jì)算體系和鍵值模式可輕松支持百億規(guī)模以上的記錄管理。但其最適合針對(duì)特定單一條件(如某用戶的相關(guān)信息)的快速查詢,不支持多級(jí)索引,所以研究中常用的多維分析(多字段條件)會(huì)很麻煩(方便性遠(yuǎn)不如關(guān)系數(shù)據(jù)庫),對(duì)單用戶的檢索分析則很快。在HCR(慧辰資訊)(慧辰資訊)平臺(tái)中,HBase主要作為基礎(chǔ)大數(shù)據(jù)的存儲(chǔ)和單用戶行為標(biāo)簽的離線批量計(jì)算。
文檔數(shù)據(jù)庫(MongoDB)另一基于文檔的大數(shù)據(jù)數(shù)據(jù)庫,使用上最大特點(diǎn)是可隨意增刪記錄的字段,尤其適合某些研究分析中隨時(shí)自定義分析屬性維度。如果有涉及地理空間的分析,其也比較方便。就實(shí)際應(yīng)用而言,建議在<10億級(jí)別的動(dòng)態(tài)數(shù)據(jù)比較合適(否則對(duì)內(nèi)存和硬盤空間需求太大)
(3)處理與計(jì)算
市場研究行業(yè)大數(shù)據(jù)業(yè)務(wù)中,分析相關(guān)的數(shù)據(jù)計(jì)算技術(shù)是最重要的技術(shù)內(nèi)容,主要集中在以下幾個(gè)領(lǐng)域:
并行機(jī)器學(xué)習(xí)(Mahout /Spark MLLib)機(jī)器學(xué)習(xí)本已是數(shù)據(jù)計(jì)算利器,而基于分布式的并行機(jī)器學(xué)習(xí)框架則將其能力又大大增強(qiáng)。Mahout中實(shí)現(xiàn)了大量的機(jī)器學(xué)習(xí)算法(包括推薦算法)的并行版本(甚至有并行SVD這種高大上),是當(dāng)前大數(shù)據(jù)機(jī)器學(xué)習(xí)的主要工具包。MLib基于Spark框架,在性能上有優(yōu)勢(shì),也開始受到廣泛的關(guān)注。
自然語言處理在中文自然語言處理領(lǐng)域,當(dāng)前可用的免費(fèi)開放資源并不多(分詞資源較多),一些開放資源主要來自學(xué)術(shù)院校(清華、中科院、復(fù)旦和哈工大等,相關(guān)內(nèi)容不便列出,請(qǐng)自行查找),但在效果上面向工業(yè)應(yīng)用尚有不足。當(dāng)前常見方式是借助專業(yè)技術(shù)企業(yè)/院校合作獲得深入分析能力。
圖計(jì)算(GraphLab/Spark GraphX)如果有圖計(jì)算相關(guān)的需求可考慮采用這些開源資源。前者是當(dāng)前最主流的圖計(jì)算框架,實(shí)現(xiàn)了圖數(shù)據(jù)的存儲(chǔ)和基礎(chǔ)計(jì)算邏輯。后者GraphX是Spark體系下的圖計(jì)算新貴。
?R語言R語言作為統(tǒng)計(jì)性功能強(qiáng)大的計(jì)算語言,在傳統(tǒng)研究行業(yè)具有較大應(yīng)用前景。同時(shí)其在可視化和開源支持方面也有一定優(yōu)勢(shì)。如今R對(duì)Hadoop的支持也比較完善。對(duì)于熟悉R語言的研究公司,可從R語言更快切入大數(shù)據(jù)的計(jì)算領(lǐng)域。
(4)研究分析
在分析階段,考慮研究員將成為重要的角色,此時(shí)資源聚焦在研究員可以使用的各種工具上。以下是相關(guān)的一些內(nèi)容:
Hive/Impala/Spark Sql分布式的大數(shù)據(jù)(數(shù)據(jù)倉庫)的分析工具,支持以傳統(tǒng)關(guān)系數(shù)據(jù)庫Sql語句進(jìn)行大數(shù)據(jù)內(nèi)容的檢索,大大降低了研究分析人員的大數(shù)據(jù)分析門檻,是適合數(shù)據(jù)分析/研究人員的最佳工具。Hive最早由Facebook開源,應(yīng)用最廣,但性能最差。Impala在性能與穩(wěn)定性的平衡較好,但限制較多。Spark Sql作為最新的工具,性能最強(qiáng),但穩(wěn)定性尚待完善。
TableAU 企業(yè)級(jí)大數(shù)據(jù)分析工具,多應(yīng)用于世界500強(qiáng)企業(yè)內(nèi)部業(yè)務(wù)分析,不過其是商業(yè)付費(fèi)軟件。其優(yōu)點(diǎn)是大數(shù)據(jù)下的可視化和方便性,研究人員使用比較容易。就實(shí)際應(yīng)用體會(huì)上,感覺更適合企業(yè)級(jí)內(nèi)部數(shù)據(jù)、億級(jí)以下的結(jié)構(gòu)化大數(shù)據(jù)的場景。分析維度主要是統(tǒng)計(jì)性維度,可分析深度相對(duì)不足。
SPSS Modeler? IBM的商用數(shù)據(jù)挖掘工具,對(duì)大數(shù)據(jù)支持能力不如TableAU(與其計(jì)算復(fù)雜度相關(guān)),其特點(diǎn)是提供專業(yè)的數(shù)據(jù)挖掘算法,研究中適合做深度/非統(tǒng)計(jì)性研究。
Gephi可視化分析如果要做一些傳播關(guān)系的圖形化分析,那不妨考慮Gephi。其支持多種可視化分析圖生成。不過在較大數(shù)據(jù)量(比如2萬節(jié)點(diǎn)以上)時(shí)性能下降較快,所以最好對(duì)數(shù)據(jù)預(yù)先做相關(guān)平滑和剪枝。
可視化開發(fā)框架數(shù)據(jù)可視化是大數(shù)據(jù)的一個(gè)特色,但這里放到研究分析來說明,是因?yàn)榭梢暬夹g(shù)的價(jià)值是幫助更有效的分析,不是花哨的展示。當(dāng)前國內(nèi)百度EChart(2.0以上版本)的易用性和功能相對(duì)不錯(cuò)(就是感覺樣式配色不夠?qū)I(yè)),國外基于D3框架的應(yīng)用更能體現(xiàn)可視化的價(jià)值(效果強(qiáng)大,但開發(fā)比較麻煩)。桌面辦公軟件中,微軟GeoFlow支持Excel的Bing地圖可視化。其他還有很多各有特色的可視化框架,不再一一介紹了。
HCR(慧辰資訊)認(rèn)為,經(jīng)過以上內(nèi)容,想必研究同行們對(duì)大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)有了基本的認(rèn)識(shí)。如果要想在大數(shù)據(jù)業(yè)務(wù)服務(wù)中發(fā)揮自身價(jià)值,研究人員除了轉(zhuǎn)變方法論思路外,還要注意提升自身的技術(shù)能力。
傳統(tǒng)研究業(yè)務(wù)中,研究員太依賴DP和其他IT人員進(jìn)行數(shù)據(jù)計(jì)算處理,自身沒有任何技術(shù)能力。大數(shù)據(jù)業(yè)態(tài)下,技術(shù)性分析與傳統(tǒng)研究將緊密結(jié)合,技術(shù)手段的使用程度深入影響數(shù)據(jù)洞察的深度。研究員如果熟悉相關(guān)技術(shù)手段(至少分析工具的使用),將會(huì)極大擴(kuò)展自身的分析能力。既熟悉大數(shù)據(jù)處理技術(shù),又懂得研究業(yè)務(wù)思路的復(fù)合人才—數(shù)據(jù)科學(xué)家,將是未來數(shù)據(jù)分析業(yè)務(wù)的王者。
評(píng)論
查看更多