0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據入門分享:Hive應用場景

454398 ? 來源:加米谷學院 ? 作者:加米谷 ? 2020-12-08 12:25 ? 次閱讀

在大數據的發(fā)展當中,大數據技術生態(tài)的組件,也在不斷地拓展開來,而其中的Hive組件,作為Hadoop的數據倉庫工具,可以實現對Hadoop集群當中的大規(guī)模數據進行相應的數據處理。今天我們的大數據入門分享,就主要來講講,Hive應用場景。

關于Hive,首先需要明確的一點就是,Hive并非數據庫,Hive所提供的數據存儲、查詢和分析功能,本質上來說,并非傳統(tǒng)數據庫所提供的存儲、查詢、分析功能。

Hive數據倉庫工具將結構化的數據文件映射為一張數據庫表,并提供SQL查詢功能,能將SQL語句轉變成MapReduce任務來執(zhí)行。通過類SQL語句實現快速MapReduce統(tǒng)計,使MapReduce編程變得更加簡單易行。

Hive應用場景

總的來說,Hive是十分適合數據倉庫的統(tǒng)計分析和Windows注冊表文件。

Hive在Hadoop中扮演數據倉庫的角色。Hive添加數據的結構在HDFS(Hive superimposes structure on data in HDFS),并允許使用類似于SQL語法進行數據查詢。

Hive更適合于數據倉庫的任務,主要用于靜態(tài)的結構以及需要經常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結合的理想交集。

Hive使用

Hive在Hadoop之上,使用Hive的前提是先要安裝Hadoop。

Hive要分析的數據存儲在HDFS,Hive為數據創(chuàng)建的表結構(schema),存儲在RDMS(relevant database manage system關系型數據庫管理系統(tǒng),比如mysql)。

Hive構建在基于靜態(tài)批處理的Hadoop之上,Hadoop通常都有較高的延遲并且在作業(yè)提交和調度的時候需要大量的開銷。因此,Hive并不能夠在大規(guī)模數據集上實現低延遲快速的查詢,例如,Hive在幾百MB的數據集上執(zhí)行查詢一般有分鐘級的時間延遲。

Hive查詢操作過程嚴格遵守Hadoop MapReduce的作業(yè)執(zhí)行模型,Hive將用戶的HiveQL語句通過解釋器轉換為MapReduce作業(yè)提交到Hadoop集群上,Hadoop監(jiān)控作業(yè)執(zhí)行過程,然后返回作業(yè)執(zhí)行結果給用戶。Hive的最佳使用場合是大數據集的批處理作業(yè),例如,網絡日志分析。

Hive優(yōu)缺點

優(yōu)點:

操作接口采用類SQL語法,提供快速開發(fā)的能力(簡單、容易上手)。

Hive的執(zhí)行延遲比較高,因此Hive常用于數據分析,對實時性要求不高的場合。

Hive優(yōu)勢在于處理大數據,對于處理小數據沒有優(yōu)勢,因為Hive的執(zhí)行延遲比較高。

Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。

缺點:

1.Hive的HQL表達能力有限

(1)迭代式算法無法表達遞歸算法

(2)數據挖掘方面不擅長(數據挖掘和算法機器學習

2.Hive的效率比較低

(1)Hive自動生成的MapReduce作業(yè),通常情況下不夠智能

(2)Hive調優(yōu)比較困難,粒度較粗(快)

關于大數據培訓,Hive應用場景,以上就為大家做了大致的介紹了。在大數據應用場景下,Hive更多是作為Hadoop的一個數據倉庫工具,并不直接存儲數據,但是卻不可或缺。
編輯:hfy

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 大數據
    +關注

    關注

    64

    文章

    8890

    瀏覽量

    137449
  • hive
    +關注

    關注

    0

    文章

    12

    瀏覽量

    3850
收藏 人收藏

    評論

    相關推薦

    倍頻器的技術原理和應用場景

    倍頻器是一種用于將輸入信號的頻率倍增的電子設備,以下是關于倍頻器的技術原理和應用場景的詳細解釋:技術原理倍頻器的技術原理主要基于非線性元件(如二極管、晶體管等)的特性和頻率變換技術。 非線性元件
    發(fā)表于 11-29 14:49

    系統(tǒng)放大器的技術原理和應用場景

    系統(tǒng)放大器是一種重要的電子設備,其技術原理和應用場景都具有一定的專業(yè)性和廣泛性。以下是對系統(tǒng)放大器的技術原理和應用場景的詳細介紹:一、技術原理系統(tǒng)放大器的工作原理基于電子器件的非線性特性,通過控制
    發(fā)表于 11-18 14:46

    SD NAND在大數據時代的應用場景

    和相對較低的成本,可以用于多種場景數據采集 :在大數據領域,大量的數據需要被采集和存儲。SD NAND卡可以用于各種數據采集設備,如物聯
    的頭像 發(fā)表于 10-29 15:49 ?234次閱讀
    SD NAND在<b class='flag-5'>大數據</b>時代的應<b class='flag-5'>用場景</b>

    實時示波器的技術原理和應用場景

    實時示波器是一種高性能的電子測量儀器,其技術原理和應用場景對于電子工程和通信技術領域具有重要意義。以下是對實時示波器的技術原理和應用場景的詳細解釋:一、技術原理實時示波器的工作原理基于電子束在熒光屏
    發(fā)表于 10-23 14:22

    源測量單元設備的技術原理和應用場景

    源測量單元(SMU)設備是一種集成了精密電源(PPS)和高性能數字萬用表(DMM)功能的測試設備。以下是對其技術原理和應用場景的詳細解析:一、技術原理 集成功能: SMU在單個儀器中集成了電源
    發(fā)表于 10-22 11:10

    頻率計數器的技術原理和應用場景

    頻率計數器,又稱頻率計,是一種專門用于測量信號頻率的電子測量儀器。以下是對其技術原理和應用場景的詳細分析:一、技術原理頻率計數器的技術原理基于周期計數技術,即將已知時間長度的標準時鐘信號與被測信號
    發(fā)表于 10-18 14:03

    智能IC卡測試設備的技術原理和應用場景

    智能IC卡測試設備的技術原理和應用場景,可以從以下幾個方面進行闡述:技術原理智能IC卡測試設備的技術原理主要圍繞IC卡的通信和數據處理機制展開。IC卡(包括智能IC卡)通常內置有微電子芯片,該芯片
    發(fā)表于 09-26 14:27

    NFC協(xié)議分析儀的技術原理和應用場景

    NFC協(xié)議分析儀的技術原理和應用場景可以詳細闡述如下:技術原理NFC(Near Field Communication,近場通信)協(xié)議分析儀是一種用于分析NFC通信協(xié)議和性能的專業(yè)設備。其技術
    發(fā)表于 09-25 14:45

    大數據從業(yè)者必知必會的Hive SQL調優(yōu)技巧

    大數據從業(yè)者必知必會的Hive SQL調優(yōu)技巧 摘要 :在大數據領域中,Hive SQL被廣泛應用于數據倉庫的
    的頭像 發(fā)表于 09-24 13:30 ?267次閱讀

    FPGA與MCU的應用場景

    FPGA的應用場景有這些: 快速原型設計 FPGA可以快速配置成多種定制數字電路,允許在不需要昂貴且耗時的制造過程的情況下進行快速部署和修改。 硬件加速 在需要高性能和低延遲的應用中,FPGA的并行
    發(fā)表于 07-29 15:45

    大數據采集系統(tǒng)分為幾類

    大數據采集系統(tǒng)是大數據生態(tài)系統(tǒng)中的重要組成部分,它負責從各種數據源收集、整合和存儲數據。根據不同的數據源、采集方法和應
    的頭像 發(fā)表于 07-01 15:44 ?1537次閱讀

    “Spark+Hive”在DPU環(huán)境下的性能測評 | OLAP數據庫引擎選型白皮書(24版)DPU部分節(jié)選

    在奇點云2024年版《OLAP數據庫引擎選型白皮書》中,中科馭數聯合奇點云針對Spark+Hive這類大數據計算場景下的主力引擎,測評DPU環(huán)境下對比CPU環(huán)境下的性能提升效果。特此節(jié)
    的頭像 發(fā)表于 05-30 16:09 ?530次閱讀
    “Spark+<b class='flag-5'>Hive</b>”在DPU環(huán)境下的性能測評 | OLAP<b class='flag-5'>數據</b>庫引擎選型白皮書(24版)DPU部分節(jié)選

    STM32待機模式適合用于那些應用場景?

    對于查看STM32低功耗模式,共有三種,其中最省電的為待機模式,但是待機模式喚醒后相當于軟件復位了,ram及寄存器中的值都復位了,僅僅是備份域的寄存器除外,因此有個疑問,待機模式適合用于那些應用場景
    發(fā)表于 05-07 07:46

    NanoEdge AI的技術原理、應用場景及優(yōu)勢

    能耗并提高數據安全性。本文將對 NanoEdge AI 的技術原理、應用場景以及優(yōu)勢進行綜述。 1、技術原理 NanoEdge AI 的核心技術包括邊緣計算、神經網絡壓縮和低功耗硬件設計。邊緣計算
    發(fā)表于 03-12 08:09

    AG32VF-MIPI應用場景

    的基礎上,集成了MIPI接口協(xié)議,提供了豐富的功能和特性,能夠滿足不同應用場景的需求,為用戶提供更加全面、便捷、高效的數據傳輸方案。 基本參數: MIPI up to 1.5Gbps LVDS up
    發(fā)表于 01-22 08:56