在大數據的發(fā)展當中,大數據技術生態(tài)的組件,也在不斷地拓展開來,而其中的Hive組件,作為Hadoop的數據倉庫工具,可以實現對Hadoop集群當中的大規(guī)模數據進行相應的數據處理。今天我們的大數據入門分享,就主要來講講,Hive應用場景。
關于Hive,首先需要明確的一點就是,Hive并非數據庫,Hive所提供的數據存儲、查詢和分析功能,本質上來說,并非傳統(tǒng)數據庫所提供的存儲、查詢、分析功能。
Hive數據倉庫工具將結構化的數據文件映射為一張數據庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執(zhí)行。通過類SQL語句實現快速MapReduce統(tǒng)計,使MapReduce編程變得更加簡單易行。
Hive應用場景
總的來說,Hive是十分適合數據倉庫的統(tǒng)計分析和Windows注冊表文件。
Hive在Hadoop中扮演數據倉庫的角色。Hive添加數據的結構在HDFS(Hive superimposes structure on data in HDFS),并允許使用類似于SQL語法進行數據查詢。
Hive更適合于數據倉庫的任務,主要用于靜態(tài)的結構以及需要經常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結合的理想交集。
Hive使用
Hive在Hadoop之上,使用Hive的前提是先要安裝Hadoop。
Hive要分析的數據存儲在HDFS,Hive為數據創(chuàng)建的表結構(schema),存儲在RDMS(relevant database manage system關系型數據庫管理系統(tǒng),比如mysql)。
Hive構建在基于靜態(tài)批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業(yè)提交和調度的時候需要大量的開銷。因此,Hive并不能夠在大規(guī)模數據集上實現低延遲快速的查詢,例如,Hive在幾百MB的數據集上執(zhí)行查詢一般有分鐘級的時間延遲。
Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業(yè)執(zhí)行模型,Hive將用戶的HiveQL語句通過解釋器轉換為MapReduce作業(yè)提交到Hadoop集群上,Hadoop監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結果給用戶。Hive的最佳使用場合是大數據集的批處理作業(yè),例如,網絡日志分析。
Hive優(yōu)缺點
優(yōu)點:
操作接口采用類SQL語法,提供快速開發(fā)的能力(簡單、容易上手)。
Hive的執(zhí)行延遲比較高,因此Hive常用于數據分析,對實時性要求不高的場合。
Hive優(yōu)勢在于處理大數據,對于處理小數據沒有優(yōu)勢,因為Hive的執(zhí)行延遲比較高。
Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
缺點:
1.Hive的HQL表達能力有限
(1)迭代式算法無法表達遞歸算法
(2)數據挖掘方面不擅長(數據挖掘和算法機器學習)
2.Hive的效率比較低
(1)Hive自動生成的MapReduce作業(yè),通常情況下不夠智能化
(2)Hive調優(yōu)比較困難,粒度較粗(快)
關于大數據培訓,Hive應用場景,以上就為大家做了大致的介紹了。在大數據應用場景下,Hive更多是作為Hadoop的一個數據倉庫工具,并不直接存儲數據,但是卻不可或缺。
編輯:hfy
-
大數據
+關注
關注
64文章
8890瀏覽量
137449 -
hive
+關注
關注
0文章
12瀏覽量
3850
發(fā)布評論請先 登錄
相關推薦
評論