Ramesh Dontha 曾在 DataConomy 上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的 75 個(gè)核心術(shù)語(yǔ),這不僅是大數(shù)據(jù)初學(xué)者很好的入門(mén)資料,對(duì)于高階從業(yè)人員也可以起到查漏補(bǔ)缺的作用。本文為下篇(50 個(gè)術(shù)語(yǔ))。
下面來(lái)對(duì)上篇文章涵蓋的術(shù)語(yǔ)做個(gè)簡(jiǎn)短的回顧:算法,分析,描述性分析,預(yù)處理分析,預(yù)測(cè)分析,批處理,Cassandra(一個(gè)大規(guī)模分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)),云計(jì)算,集群計(jì)算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學(xué)家,分布式文件系統(tǒng),ETL,Hadoop(一個(gè)開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)),內(nèi)存計(jì)算,物聯(lián)網(wǎng),機(jī)器學(xué)習(xí),Mapreduce(hadoop 的核心組件之一),NoSQL(非關(guān)系型的數(shù)據(jù)庫(kù)),R,Spark(計(jì)算引擎),流處理,結(jié)構(gòu)化 vs 非結(jié)構(gòu)化數(shù)據(jù)。
我們接下來(lái)繼續(xù)了解另外 50 個(gè)大數(shù)據(jù)術(shù)語(yǔ)。
Apache:
軟件基金會(huì)(ASF)提供了許多大數(shù)據(jù)的開(kāi)源項(xiàng)目,目前有 350 多個(gè)。解釋完這些項(xiàng)目需要耗費(fèi)大量時(shí)間,所以我只挑選解釋了一些流行術(shù)語(yǔ)。Apache Kafka:命名于捷克作家卡夫卡,用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用。它如此流行的原因在于能夠以容錯(cuò)的方式存儲(chǔ)、管理和處理數(shù)據(jù)流,據(jù)說(shuō)還非?!缚焖佟?。鑒于社交網(wǎng)絡(luò)環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。
Apache Mahout:
Mahout 提供了一個(gè)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的預(yù)制算法庫(kù),也可用作創(chuàng)建更多算法的環(huán)境。換句話(huà)說(shuō),機(jī)器學(xué)習(xí)極客的最佳環(huán)境。
Apache Oozie:
在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過(guò)預(yù)定義的方式和定義的依賴(lài)關(guān)系,安排和運(yùn)行工作。Oozie 為 pig、MapReduce 以及 Hive 等語(yǔ)言編寫(xiě)的大數(shù)據(jù)工作所提供正是這個(gè)。
Apache Drill, Apache Impala, Apache Spark SQL:
這三個(gè)開(kāi)源項(xiàng)目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經(jīng)知道 SQL 并處理以大數(shù)據(jù)格式存儲(chǔ)的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說(shuō)的有點(diǎn)奇怪。
Apache Hive:
知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫(xiě)入和管理駐留在分布式存儲(chǔ)中的大型數(shù)據(jù)集。
Apache Pig:
Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢(xún)、執(zhí)行例程的平臺(tái)。所使用的腳本語(yǔ)言叫做 Pig Latin(我絕對(duì)不是瞎說(shuō),相信我)。據(jù)說(shuō) Pig 很容易理解和學(xué)習(xí)。但是我很懷疑有多少是可以學(xué)習(xí)的?
Apache Sqoop:
一個(gè)用于將數(shù)據(jù)從 Hadoop 轉(zhuǎn)移到非 Hadoop 數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù)和關(guān)系數(shù)據(jù)庫(kù))的工具。
Apache Storm:
一個(gè)免費(fèi)開(kāi)源的實(shí)時(shí)分布式計(jì)算系統(tǒng)。它使得使用 Hadoop 進(jìn)行批處理的同時(shí)可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。
為什么 AI 出現(xiàn)在這里?你可能會(huì)問(wèn),這不是一個(gè)單獨(dú)的領(lǐng)域嗎?所有這些技術(shù)發(fā)展趨勢(shì)緊密相連,所以我們最好靜下心來(lái)繼續(xù)學(xué)習(xí),對(duì)吧?AI 以軟硬件結(jié)合的方式開(kāi)發(fā)智能機(jī)器和軟件,這種硬件和軟件的結(jié)合能夠感知環(huán)境并在需要時(shí)采取必要的行動(dòng),不斷從這些行動(dòng)中學(xué)習(xí)。是不是聽(tīng)起來(lái)很像機(jī)器學(xué)習(xí)?跟我一起「困惑」吧。
行為分析(Behavioral Analytics):
你有沒(méi)有想過(guò)谷歌是如何為你需要的產(chǎn)品/服務(wù)提供廣告的?行為分析側(cè)重于理解消費(fèi)者和應(yīng)用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網(wǎng)模式,社交媒體互動(dòng)行為,以及我們的網(wǎng)上購(gòu)物活動(dòng)(購(gòu)物車(chē)等),連接這些無(wú)關(guān)的數(shù)據(jù)點(diǎn),并試圖預(yù)測(cè)結(jié)果。舉一個(gè)例子,在我找到一家酒店并清空購(gòu)物車(chē)后,我收到了度假村假期線路的電話(huà)。我還要說(shuō)多點(diǎn)嗎?
Brontobytes:
1 后面 27 個(gè)零,這是未來(lái)數(shù)字世界存儲(chǔ)單位的大小。而我們?cè)谶@里,來(lái)談?wù)?Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要讀這篇文章才能深入了解這些術(shù)語(yǔ)。
商業(yè)智能(Business Intelligence):
我將重用 Gartner 對(duì) BI 的定義,因?yàn)樗忉尩暮芎谩I虡I(yè)智能是一個(gè)總稱(chēng),包括應(yīng)用程序、基礎(chǔ)設(shè)施、工具以及最佳實(shí)踐,它可以訪問(wèn)和分析信息,從而改善和優(yōu)化決策及績(jī)效。
生物測(cè)定學(xué)(Biometrics):
這是一項(xiàng) James Bondish 技術(shù)與分析技術(shù)相結(jié)合的通過(guò)人體的一種或多種物理特征來(lái)識(shí)別人的技術(shù),如面部識(shí)別,虹膜識(shí)別,指紋識(shí)別等。
點(diǎn)擊流分析(Clickstream analytics):
用于分析用戶(hù)在網(wǎng)絡(luò)上瀏覽時(shí)的在線點(diǎn)擊數(shù)據(jù)。有沒(méi)有想過(guò)即使在切換網(wǎng)站時(shí),為什么某些谷歌廣告還是陰魂不散?因?yàn)楣雀璐罄兄滥阍邳c(diǎn)擊什么。
聚類(lèi)分析(Cluster Analysis):
是一個(gè)試圖識(shí)別數(shù)據(jù)結(jié)構(gòu)的探索性分析,也稱(chēng)為分割分析或分類(lèi)分析。更具體地說(shuō),它試圖確定案例的同質(zhì)組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類(lèi)分析來(lái)識(shí)別案例組。因?yàn)樗翘剿餍缘模_實(shí)對(duì)依賴(lài)變量和獨(dú)立變量進(jìn)行了區(qū)分。SPSS 提供的不同的聚類(lèi)分析方法可以處理二進(jìn)制、標(biāo)稱(chēng)、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。
比較分析(Comparative Analytics):
因?yàn)榇髷?shù)據(jù)的關(guān)鍵就在于分析,所以本文中我將深入講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過(guò)濾和決策樹(shù)分析等統(tǒng)計(jì)技術(shù)來(lái)比較多個(gè)進(jìn)程、數(shù)據(jù)集或其他對(duì)象。我知道它涉及的技術(shù)越來(lái)越少,但是我仍無(wú)法完全避免使用術(shù)語(yǔ)。比較分析可用于醫(yī)療保健領(lǐng)域,通過(guò)比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準(zhǔn)確的醫(yī)療診斷。
關(guān)聯(lián)分析(Connection Analytics):
你一定看到了像圖表一樣的蜘蛛網(wǎng)將人與主題連接起來(lái),從而確定特定主題的影響者。關(guān)聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產(chǎn)品、網(wǎng)絡(luò)之中的系統(tǒng),甚至是數(shù)據(jù)與多個(gè)網(wǎng)絡(luò)結(jié)合之間的相關(guān)連接和影響。
數(shù)據(jù)分析師(Data Analyst):
數(shù)據(jù)分析師是一個(gè)非常重要和受歡迎的工作,除了準(zhǔn)備報(bào)告之外,它還負(fù)責(zé)收集、編輯和分析數(shù)據(jù)。
數(shù)據(jù)清洗(Data Cleansing):
顧名思義,數(shù)據(jù)清洗涉及到檢測(cè)并更正或者刪除數(shù)據(jù)庫(kù)中不準(zhǔn)確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動(dòng)化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進(jìn)一步豐富數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量。請(qǐng)記住,臟數(shù)據(jù)會(huì)導(dǎo)致錯(cuò)誤的分析和糟糕的決策。
數(shù)據(jù)即服務(wù)(DaaS):
我們有軟件即服務(wù)(SaaS), 平臺(tái)即服務(wù)(PaaS),現(xiàn)在我們又有 DaaS,它的意思是:數(shù)據(jù)即服務(wù)。通過(guò)給用戶(hù)提供按需訪問(wèn)的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)虛擬化(Data virtualization):
這是一種數(shù)據(jù)管理方法,它允許某個(gè)應(yīng)用在不知道技術(shù)細(xì)節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網(wǎng)絡(luò)利用這個(gè)方法來(lái)存儲(chǔ)我們的照片。
臟數(shù)據(jù)(Dirty Data):
既然大數(shù)據(jù)這么吸引人,那么人們也開(kāi)始給數(shù)據(jù)加上其他的形容詞來(lái)形成新的術(shù)語(yǔ),例如黑數(shù)據(jù)(dark data)、臟數(shù)據(jù)(dirty data)、小數(shù)據(jù)(small data),以及現(xiàn)在的智能數(shù)據(jù)(smart data)。臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準(zhǔn)確的、重復(fù)的以及不一致的數(shù)據(jù)。顯然,你不會(huì)想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。
模糊邏輯(Fuzzy logic):
我們有多少次對(duì)一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實(shí),這些事實(shí)進(jìn)一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計(jì)算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過(guò)漸漸消除部分事實(shí)來(lái)模仿人腦。
游戲化(Gamification):
在一個(gè)典型的游戲中,你會(huì)有一個(gè)類(lèi)似于分?jǐn)?shù)一樣的元素與別人競(jìng)爭(zhēng),并且還有明確的游戲規(guī)則。大數(shù)據(jù)中的游戲化就是使用這些概念來(lái)收集、分析數(shù)據(jù)或者激發(fā)玩家。
圖數(shù)據(jù)庫(kù)(Graph Databases):
圖數(shù)據(jù)使用節(jié)點(diǎn)和邊這樣的概念來(lái)代表人和業(yè)務(wù)以及他們之間的關(guān)系,以挖掘社交媒體中的數(shù)據(jù)。是否曾經(jīng)驚嘆過(guò)亞馬遜在你買(mǎi)一件產(chǎn)品的時(shí)候告訴你的關(guān)于別人在買(mǎi)什么的信息?對(duì),這就是圖數(shù)據(jù)庫(kù)。
Hadoop 用戶(hù)體驗(yàn)(Hadoop User Experience /Hue):
Hue 是一個(gè)能夠讓使用 Apache Hadoop 變得更加容易的開(kāi)源接口。它是一款基于 web 的應(yīng)用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務(wù)設(shè)計(jì);它有能夠調(diào)度工作流的框架 Oozie;它有一個(gè) shell、一個(gè) Impala、一個(gè) Hive UI 以及一組 Hadoop API。
高性能分析應(yīng)用(HANA):
這是 SAP 公司為大數(shù)據(jù)傳輸和分析設(shè)計(jì)的一個(gè)軟硬件內(nèi)存平臺(tái)。
HBase:
一個(gè)分布式的面向列的數(shù)據(jù)庫(kù)。它使用 HDFS 作為其底層存儲(chǔ),既支持利用 MapReduce 進(jìn)行的批量計(jì)算,也支持利用事物交互的批量計(jì)算。
負(fù)載均衡(Load balancing):
為了實(shí)現(xiàn)最佳的結(jié)果和對(duì)系統(tǒng)的利用,將負(fù)載分發(fā)給多個(gè)計(jì)算機(jī)或者服務(wù)器。
元數(shù)據(jù)(Metadata):
元數(shù)據(jù)就是能夠描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了數(shù)據(jù)的基本信息,這使得查找和使用特定的數(shù)據(jù)實(shí)例變得更加容易。例如,作者、數(shù)據(jù)的創(chuàng)建日期、修改日期以及大小,這幾項(xiàng)是基本的文檔元數(shù)據(jù)。除了文檔文件之外,元數(shù)據(jù)還被用于圖像、視頻、電子表格和網(wǎng)頁(yè)。
MongoDB:
MongoDB 是一個(gè)面向文本數(shù)據(jù)模型的跨平臺(tái)開(kāi)源數(shù)據(jù)庫(kù),而不是傳統(tǒng)的基于表格的關(guān)系數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)結(jié)構(gòu)的主要設(shè)計(jì)目的是讓結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在特定類(lèi)型應(yīng)用的整合更快、更容易。
Mashup:
幸運(yùn)的是,這個(gè)術(shù)語(yǔ)和我們?cè)谌粘I钪惺褂玫摹竚ashup」一詞有著相近的含義,就是混搭的意思。實(shí)質(zhì)上,mashup 是一個(gè)將不同的數(shù)據(jù)集合并到一個(gè)單獨(dú)應(yīng)用中的方法(例如:將房地產(chǎn)數(shù)據(jù)與地理位置數(shù)據(jù)、人口數(shù)據(jù)結(jié)合起來(lái))。這確實(shí)能夠讓可視化變得很酷。
多維數(shù)據(jù)庫(kù)(Multi-Dimensional Databases):
這是一個(gè)為了數(shù)據(jù)在線分析處理(OLAP)和數(shù)據(jù)倉(cāng)庫(kù)優(yōu)化而來(lái)的數(shù)據(jù)庫(kù)。如果你不知道數(shù)據(jù)倉(cāng)庫(kù)是什么,我可以解釋一下,數(shù)據(jù)倉(cāng)庫(kù)不是別的什么東西,它只是對(duì)多個(gè)數(shù)據(jù)源的數(shù)據(jù)做了集中存儲(chǔ)。
多值數(shù)據(jù)庫(kù)(MultiValue Databases):
多值數(shù)據(jù)庫(kù)是一種非關(guān)系型數(shù)據(jù)庫(kù),它能夠直接理解三維數(shù)據(jù),這對(duì)直接操作 HTML 和 XML 字符串是很好的。
自然語(yǔ)言處理(Natural Language Processing):
自然語(yǔ)言處理是被設(shè)計(jì)來(lái)讓計(jì)算機(jī)更加準(zhǔn)確地理解人類(lèi)日常語(yǔ)言的軟件算法,能夠讓人類(lèi)更加自然、更加有效地和計(jì)算機(jī)交互。
神經(jīng)網(wǎng)絡(luò)(Neural Network):
根據(jù)這個(gè)描述(http://neuralnetworksanddeeplearning.com/),神經(jīng)網(wǎng)絡(luò)是一個(gè)受生物學(xué)啟發(fā)的非常漂亮的編程范式,它能夠讓計(jì)算機(jī)從觀察到的數(shù)據(jù)中學(xué)習(xí)。已經(jīng)好久沒(méi)有一個(gè)人會(huì)說(shuō)一個(gè)編程范式很漂亮了。實(shí)際上,神經(jīng)網(wǎng)絡(luò)就是受現(xiàn)實(shí)生活中腦生物學(xué)啟發(fā)的模型。..。..。 與神經(jīng)網(wǎng)絡(luò)緊密關(guān)聯(lián)的一個(gè)術(shù)語(yǔ)就是深度學(xué)習(xí)。深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)中一系列學(xué)習(xí)技術(shù)的集合。
模式識(shí)別(Pattern Recognition):
當(dāng)算法需要在大規(guī)模數(shù)據(jù)集或者在不同的數(shù)據(jù)集上確定回歸或者規(guī)律的時(shí)候,就出現(xiàn)了模式識(shí)別。它與機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘緊密相連,甚至被認(rèn)為是后兩者的代名詞。這種可見(jiàn)性可以幫助研究者發(fā)現(xiàn)一些深刻的規(guī)律或者得到一些可能被認(rèn)為很荒謬的結(jié)論。
射頻識(shí)別(Radio Frequency Identification/RFID):
射頻識(shí)別是一類(lèi)使用非接觸性無(wú)線射頻電磁場(chǎng)來(lái)傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)的發(fā)展,RFID 標(biāo)簽能夠被嵌入到任何可能的「東西里面」,這能夠生成很多需要被分析的數(shù)據(jù)。歡迎來(lái)到數(shù)據(jù)世界。
軟件即服務(wù)(SaaS):
軟件即服務(wù)讓服務(wù)提供商把應(yīng)用托管在互聯(lián)網(wǎng)上。SaaS 提供商在云端提供服務(wù)。
半結(jié)構(gòu)化數(shù)據(jù)(Semi-structured data):
半結(jié)構(gòu)化數(shù)據(jù)指的是那些沒(méi)有以傳統(tǒng)的方法進(jìn)行格式化的數(shù)據(jù),例如那些與傳統(tǒng)數(shù)據(jù)庫(kù)相關(guān)的數(shù)據(jù)域或者常用的數(shù)據(jù)模型。半結(jié)構(gòu)化數(shù)據(jù)也不是完全原始的數(shù)據(jù)或者完全非結(jié)構(gòu)化的數(shù)據(jù),它可能會(huì)包含一些數(shù)據(jù)表、標(biāo)簽或者其他的結(jié)構(gòu)元素。半結(jié)構(gòu)化數(shù)據(jù)的例子有圖、表、XML 文檔以及電子郵件。半結(jié)構(gòu)化數(shù)據(jù)在萬(wàn)維網(wǎng)上十分流行,在面向?qū)ο髷?shù)據(jù)庫(kù)中經(jīng)常能夠被找到。
情感分析(Sentiment Analysis):
情感分析涉及到了對(duì)消費(fèi)者在社交媒體、顧客代表電話(huà)訪談和調(diào)查中存在的多種類(lèi)型的交互和文檔中所表達(dá)的情感、情緒和意見(jiàn)的捕捉、追蹤和分析。文本分析和自然語(yǔ)言處理是情感分析過(guò)程中的典型技術(shù)。情感分析的目標(biāo)就是要辨別或評(píng)價(jià)針對(duì)一個(gè)公司、產(chǎn)品、服務(wù)、人或者時(shí)間所持有的態(tài)度或者情感。
空間分析(Spatial analysis):
空間分析指的是對(duì)空間數(shù)據(jù)作出分析,以識(shí)別或者理解分布在幾何空間中的數(shù)據(jù)的模式和規(guī)律,這類(lèi)數(shù)據(jù)有幾何數(shù)據(jù)和拓?fù)鋽?shù)據(jù)。
流處理(Stream processing):
流處理被設(shè)計(jì)用來(lái)對(duì)「流數(shù)據(jù)」進(jìn)行實(shí)時(shí)的「連續(xù)」查詢(xún)和處理。為了對(duì)大量的流數(shù)據(jù)以很快的速度持續(xù)地進(jìn)行實(shí)時(shí)的數(shù)值計(jì)算和統(tǒng)計(jì)分析,社交網(wǎng)絡(luò)上的流數(shù)據(jù)對(duì)流處理的需求很明確。
智能數(shù)據(jù)(Smart Data):
是經(jīng)過(guò)一些算法處理之后有用并且可操作的數(shù)據(jù)。
Terabyte:
這是一個(gè)相對(duì)大的數(shù)字?jǐn)?shù)據(jù)單位,1TB 等于 1000GB。據(jù)估計(jì),10TB 能夠容納美國(guó)國(guó)會(huì)圖書(shū)館的所有印刷品,而 1TB 則能夠容納整個(gè)百科全書(shū) Encyclopedia Brittanica。
可視化(Visualization):
有了合理的可視化之后,原始數(shù)據(jù)就能夠使用了。當(dāng)然這里的可視化并不止簡(jiǎn)單的圖表。而是能夠包含數(shù)據(jù)的很多變量的同時(shí)還具有可讀性和可理解性的復(fù)雜圖表。
Yottabytes:
接近 1000 Zettabytes,或者 2500 萬(wàn)億張 DVD。現(xiàn)在所有的數(shù)字存儲(chǔ)大概是 1 Yottabyte,而且這個(gè)數(shù)字每 18 個(gè)月會(huì)翻一番。
Zettabytes:
Zettabytes:接近 1000 Exabytes,或者 10 億 Terabytes。
編輯:lyn
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8903瀏覽量
137605
原文標(biāo)題:大數(shù)據(jù)領(lǐng)域75個(gè)核心術(shù)語(yǔ)講解(下)
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論