0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)分析中Spark,Hadoop,Hive框架該用哪種開源分布式系統(tǒng)

算法與數(shù)據(jù)結構 ? 來源:算法與數(shù)據(jù)結構 ? 作者:算法與數(shù)據(jù)結構 ? 2020-09-17 13:17 ? 次閱讀

眾所周知,大數(shù)據(jù)開發(fā)和分析、機器學習、數(shù)據(jù)挖掘中,都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個框架了。最近不少朋友有問到關于這些的問題:

大廠里還有在用 Hadoop 嗎?感覺都在用 Spark,有些慌!

SQL boy 大廠面試都問什么?Hadoop、Spark、Flink 都搞過!

聽說百度只用 Hadoop,為什么不用業(yè)界都在用的 Spark !

為什么百度不用SQL支持數(shù)據(jù)處理,還在寫一堆 Hadoop 腳本!

Java 開發(fā)需要對大數(shù)據(jù)了解多少,Hbase、Hive、Spark 這些嗎?

不同的業(yè)務場景決定了不同的系統(tǒng)架構選型。Hadoop 用于分布式存儲和 Map-Reduce 計算,Spark 用于分布式機器學習,Hive 則是分布式數(shù)據(jù)庫。Hive 和 Spark 是大數(shù)據(jù)領域內(nèi)為不同目的而構建的不同產(chǎn)品。二者都有不可替代的優(yōu)勢。Hive 是一個基于Hadoop 的分布式數(shù)據(jù)庫,Spark 則是一個用于數(shù)據(jù)分析的框架。

這就要求技術人不得不掌握各種開源的技術框架。這就會造成顧此失彼,學完易忘、易混淆的情況。為了解決這個問題,這里推薦給大家一個高效學習和開發(fā)的寶藏:一份大數(shù)據(jù)/分布式開發(fā)速查表。內(nèi)容涵蓋:Spark、Hadoop及Hive等日常工作中幾乎所有的技術知識點。

對比詳細卻冗長的技術文檔,速查表要顯得更加便捷與直觀??梢詭痛蠹液茌p松的從上面找到具體某項技術的快捷命令與語法,相信能大幅提升開發(fā)效率,同時,一些遺忘的知識點也都能通過速查表來快速獲取。

由于篇幅原因,下面只展示了速查表的部分內(nèi)容。無論你是學習進階,還是日后溫習,這套速查表資料都值得好好珍藏。



1.大數(shù)據(jù)內(nèi)存計算框架之Spark 必知必會

學習 Spark ,從大方向說,算子大致可以分為以下兩類: (1)Transformation 變換 / 轉(zhuǎn)換算子:這種變換并不觸發(fā)提交作業(yè),這種算子是延遲執(zhí)行的,也就是說從一個 RDD 轉(zhuǎn)換生成另一個 RDD 的轉(zhuǎn)換操作不是馬上執(zhí)行,需要等到有 Action 操作的時候才會真正觸發(fā)。 (2)Action 行動算子:這類算子會觸發(fā) SparkContext 提交 job 作業(yè),并將數(shù)據(jù)輸出到 Spark 系統(tǒng)。

Spark 必知必會:Transformation 算子

Spark 必知必會:Action算子

2.大數(shù)據(jù)分布式文件系統(tǒng)之Hadoop 必知必會

內(nèi)容包括:Hadoop Shell ,HDFS 命令有 hadoop fs 和 hdfs dfs 兩種風格,都可使用,效果相同。

Hadoop 必知必會:Hadoop Shell

3.大數(shù)據(jù)分布式數(shù)據(jù)庫之Hive必知必會

Hive 的本質(zhì)是將 SQL 語句轉(zhuǎn)換為 MapReduce 或者 spark 等任務執(zhí)行,并可以針對數(shù)據(jù)倉庫進行分布式交互查詢。 內(nèi)容包括:Hive 內(nèi)置函數(shù)速查表,具體有關系、數(shù)學及邏輯運算符、數(shù)值計算、日期函數(shù)、條件函數(shù)、字符串函數(shù)、聚合函數(shù)、高級函數(shù)及窗口函數(shù)等。

Hive 必知必會:關系運算符

Hive 必知必會:數(shù)值計算

Hive 必知必會:字符串函數(shù)

原文標題:在百度,Spark,Hadoop,Hive ,哪個更香?

文章出處:【微信公眾號:算法與數(shù)據(jù)結構】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SQL
    SQL
    +關注

    關注

    1

    文章

    780

    瀏覽量

    44816
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134117
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    16356
  • SPARK
    +關注

    關注

    1

    文章

    106

    瀏覽量

    20418
  • hive
    +關注

    關注

    0

    文章

    12

    瀏覽量

    3973

原文標題:在百度,Spark,Hadoop,Hive ,哪個更香?

文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數(shù)據(jù)結構】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    分布式存儲數(shù)據(jù)恢復—虛擬機上hbase和hive數(shù)據(jù)數(shù)據(jù)恢復案例

    分布式存儲數(shù)據(jù)恢復環(huán)境: 16臺某品牌R730xd服務器節(jié)點,每臺服務器節(jié)點上有數(shù)臺虛擬機。 虛擬機上部署Hbase和Hive數(shù)據(jù)庫。
    的頭像 發(fā)表于 04-17 11:05 ?166次閱讀

    Hadoop 生態(tài)系統(tǒng)大數(shù)據(jù)處理的應用與實踐

    隨著數(shù)據(jù)量的爆發(fā)式增長,大數(shù)據(jù)處理技術成為企業(yè)關注焦點,Hadoop 生態(tài)系統(tǒng)在其中扮演著核心角色。 Hadoop Distributed
    的頭像 發(fā)表于 01-21 17:48 ?368次閱讀

    分布式云化數(shù)據(jù)庫有哪些類型

    分布式云化數(shù)據(jù)庫有哪些類型?分布式云化數(shù)據(jù)庫主要類型包括:關系型分布式數(shù)據(jù)庫、非關系型分布式數(shù)據(jù)
    的頭像 發(fā)表于 01-15 09:43 ?402次閱讀

    基于ptp的分布式系統(tǒng)設計

    在現(xiàn)代分布式系統(tǒng),精確的時間同步對于確保數(shù)據(jù)一致性、系統(tǒng)穩(wěn)定性和性能至關重要。PTP(Precision Time Protocol)是一
    的頭像 發(fā)表于 12-29 10:09 ?465次閱讀

    HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)文件資產(chǎn)遷移

    提供了async版本供該場景使用。 當前,wantParams“sessionId”字段在遷移流程中被系統(tǒng)占用,建議開發(fā)者在wantParams定義其他key值存儲該分布式
    發(fā)表于 12-24 10:11

    HarmonyOS Next 應用元服務開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權限與基礎數(shù)據(jù)

    提供了async版本供該場景使用。 當前,wantParams“sessionId”字段在遷移流程中被系統(tǒng)占用,建議開發(fā)者在wantParams定義其他key值存儲該分布式
    發(fā)表于 12-24 09:40

    raid 在大數(shù)據(jù)分析的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分
    的頭像 發(fā)表于 11-12 09:44 ?631次閱讀

    云計算在大數(shù)據(jù)分析的應用

    云計算在大數(shù)據(jù)分析的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數(shù)據(jù)分析應用的介紹: 一、存儲和處
    的頭像 發(fā)表于 10-24 09:18 ?1009次閱讀

    分布式輸電線路故障定位分布式是指什么

    所謂分布式指的是產(chǎn)品的部署方式,是相對于集中式而言的。 一、部署方式 分散安裝:分布式輸電線路故障定位系統(tǒng)的采集裝置需要安裝在輸電線路的多個位置,通常是每隔一定距離設置一個監(jiān)測點,以
    的頭像 發(fā)表于 10-16 11:39 ?625次閱讀
    <b class='flag-5'>分布式</b>輸電線路故障定位<b class='flag-5'>中</b>的<b class='flag-5'>分布式</b>是指什么

    IP 地址大數(shù)據(jù)分析如何進行網(wǎng)絡優(yōu)化?

    一、大數(shù)據(jù)分析在網(wǎng)絡優(yōu)化的作用 1.流量分析 大數(shù)據(jù)分析可以對網(wǎng)絡的流量進行實時監(jiān)測和分析,
    的頭像 發(fā)表于 10-09 15:32 ?507次閱讀
    IP 地址<b class='flag-5'>大數(shù)據(jù)分析</b>如何進行網(wǎng)絡優(yōu)化?

    基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數(shù)據(jù)
    的頭像 發(fā)表于 10-08 15:12 ?320次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b><b class='flag-5'>大數(shù)據(jù)</b>應用構建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧

    大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧 摘要 :在大數(shù)據(jù)領域中,Hive SQL被廣泛應用于數(shù)據(jù)倉庫的
    的頭像 發(fā)表于 09-24 13:30 ?613次閱讀

    探秘IO分布式模塊設計:讓大數(shù)據(jù)處理更高效

    隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)、云計算、人工智能等技術逐漸成為時代的主流。在這個數(shù)據(jù)爆炸的時代,如何高效地處理海量數(shù)據(jù)成為企業(yè)面臨的重大挑戰(zhàn)。IO分布式模塊設計作為一種有效的解決方案,越
    的頭像 發(fā)表于 07-26 13:54 ?986次閱讀
    探秘IO<b class='flag-5'>分布式</b>模塊設計:讓<b class='flag-5'>大數(shù)據(jù)</b>處理更高效

    Spark基于DPU的Native引擎算子卸載方案

    1.背景介紹 Apache Spark(以下簡稱Spark)是一個開源分布式計算框架,由UC Berkeley AMP Lab開發(fā),可用于
    的頭像 發(fā)表于 06-28 17:12 ?977次閱讀
    <b class='flag-5'>Spark</b>基于DPU的Native引擎算子卸載方案

    大數(shù)據(jù)分析平臺網(wǎng)站

    大數(shù)據(jù)分析平臺是一種用于處理和分析大規(guī)模數(shù)據(jù)集的系統(tǒng),旨在從海量數(shù)據(jù)中提取有價值的信息和洞察。以下是大數(shù)
    的頭像 發(fā)表于 06-28 15:46 ?1286次閱讀

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品