0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數(shù)據(jù)系統(tǒng)包括哪些

RG15206629988 ? 來源:行業(yè)學習與研究 ? 2023-02-16 18:24 ? 次閱讀

目前,主流的大數(shù)據(jù)平臺包括:Hadoop、Spark。

Hadoop是分布式(根據(jù)網(wǎng)絡資料理解:分布式與集中式相對應,對于大量數(shù)據(jù)計算,集中于一臺計算機中計算需耗費較長時間,通過將計算分布于多個計算機,節(jié)約整體計算時間)系統(tǒng)基礎架構。Hadoop的兩個功能包括:數(shù)據(jù)存儲(HDFS)、數(shù)據(jù)處理(MapReduce)。

Spark是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用計算引擎。Spark不提供文件管理系統(tǒng),沒有數(shù)據(jù)存儲功能;Spark的數(shù)據(jù)計算基于內存實現(xiàn),數(shù)據(jù)處理速度快。

一、HDFS(分布式文件存儲)

數(shù)據(jù)通過HDFS放置于一個Hadoop集群中,Hadoop集群通常由幾臺至上千臺的計算機組成。根據(jù)課程介紹理解,百度公司最大的Hadoop集群已超過4000臺計算機。

數(shù)據(jù)在存儲于HDFS前,被分割成若干數(shù)據(jù)塊,每個數(shù)據(jù)塊儲存于一臺計算機中。不同Hadoop版本所分割的數(shù)據(jù)塊大小不同,Hadoop1.0版本中數(shù)據(jù)塊大小為64MB,Hadoop2.0版本中數(shù)據(jù)塊大小為128MB。Hadoop也可以設置數(shù)據(jù)塊大?。ê瑐€人理解)。

e1266bfa-addb-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數(shù)據(jù)導論》

二、MapReduce(分布式數(shù)據(jù)處理架構)

MapReduce是分布式計算框架。開發(fā)人員在運用MapReduce處理數(shù)據(jù)時,MapReduce將指定某一Map函數(shù),將一組鍵值對(根據(jù)網(wǎng)絡資料理解:鍵值對可以根據(jù)一個值獲得對應的一個值)映射成一組新的鍵值對,并指定并發(fā)的Reduce函數(shù),保證所有Map函數(shù)映射的結果可以進行Reduce規(guī)約(根據(jù)網(wǎng)絡資料理解:通過某一連接動作將所有元素匯總為一個結果的過程)運算。

e1bec99a-addb-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數(shù)據(jù)導論》

在運用MapReduce框架編寫計算機程序時,開發(fā)人員只需考慮業(yè)務邏輯,不需考慮并行管理。

三、MapReduce的WordCount示例

WordCount是統(tǒng)計文件夾所有文本中某一詞出現(xiàn)的次數(shù)。

其中,WordCount的Map函數(shù)程序代碼如下:

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函數(shù)中的K代表文本中的詞,WordCount的Map函數(shù)的功能是將文本中的每個詞與1建立鍵值對,即每個詞對應一個“1”。

WordCount的Reduce函數(shù)程序代碼如下:

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函數(shù)將經(jīng)過WordCount的Map函數(shù)處理的相同詞對應的“1”求和,得出某一詞的出現(xiàn)的次數(shù)。

該WordCount示例中,Map和Reduce函數(shù)的具體運行如圖一所示:

首先,所有數(shù)據(jù)被整理成單行數(shù)據(jù),圖一流程圖中具有三個節(jié)點(個人理解:節(jié)點可被認為是計算機),圖一中的三行數(shù)據(jù)被分行輸入到三個節(jié)點中。

然后,Map函數(shù)運行,將每個詞與1建立鍵值對。

Map函數(shù)運行結束后,Shuffle過程運行,Shuffle過程是MapReduce內設過程,可將具有相同詞的鍵值對中的“1”集合至一個List(列表)中。如圖一所示,因為“Bear”一詞出現(xiàn)了兩次,所以經(jīng)過Shuffle過程后,“Bear”所對應的List為(1,1)。

最后,Reduce函數(shù)運行,將Shuffle過程所生成的List求和,完成對某一詞出現(xiàn)的次數(shù)統(tǒng)計。

e1f1375e-addb-11ed-bfe3-dac502259ad0.png

圖一,圖片來源:學堂在線《大數(shù)據(jù)導論》





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:大數(shù)據(jù)相關介紹(9)——大數(shù)據(jù)系統(tǒng)(上)

文章出處:【微信號:行業(yè)學習與研究,微信公眾號:行業(yè)學習與研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    工程大數(shù)據(jù)平臺

    由于無人駕駛系統(tǒng)開發(fā)需要長期迭代優(yōu)化,其過程需要大量的路試數(shù)據(jù)支撐,經(jīng)緯恒潤針對無人駕駛系統(tǒng)持續(xù)運營和持續(xù)迭代的需求,開發(fā)并在云端部署了車路云工程大數(shù)據(jù)平臺,依托5G網(wǎng)絡,具有遠程
    的頭像 發(fā)表于 01-10 17:00 ?94次閱讀
    工程<b class='flag-5'>大數(shù)據(jù)</b>平臺

    緩存對大數(shù)據(jù)處理的影響分析

    緩存對大數(shù)據(jù)處理的影響顯著且重要,主要體現(xiàn)在以下幾個方面: 一、提高數(shù)據(jù)訪問速度 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)存儲通常采用分布式存儲系統(tǒng),
    的頭像 發(fā)表于 12-18 09:45 ?200次閱讀

    上位機系統(tǒng)優(yōu)化技巧 上位機如何處理大數(shù)據(jù)

    1. 數(shù)據(jù)預處理 在大數(shù)據(jù)的處理過程中,數(shù)據(jù)預處理是至關重要的第一步。這包括數(shù)據(jù)清洗、轉換和歸一化,以確保
    的頭像 發(fā)表于 12-04 10:27 ?310次閱讀

    ADS1675最大數(shù)據(jù)吞吐率是是多少?

    ADS1675 24bit的ADC的采樣率最大是4Msps,請問這款adc的最大數(shù)據(jù)吞吐率是是多少?怎么算的,在datasheet中有明確寫出來嗎
    發(fā)表于 11-28 07:56

    raid 在大數(shù)據(jù)分析中的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數(shù)據(jù)分析中的應用主要體現(xiàn)在提高存儲系統(tǒng)的性能、可靠性和容量上。以下是RAID在大數(shù)據(jù)分析中
    的頭像 發(fā)表于 11-12 09:44 ?273次閱讀

    智慧城市與大數(shù)據(jù)的關系

    智慧城市與大數(shù)據(jù)之間存在著密切的關系,這種關系體現(xiàn)在大數(shù)據(jù)對智慧城市建設的支撐和推動作用,以及智慧城市產生的大量數(shù)據(jù)大數(shù)據(jù)技術的應用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?787次閱讀

    基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數(shù)據(jù)應用。Hadoop廣泛應用于各種場景,
    的頭像 發(fā)表于 10-08 15:12 ?177次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應用構建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    使用CYW20829的BLE進行最大數(shù)據(jù)發(fā)送應用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進行最大數(shù)據(jù)發(fā)送應用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍牙被
    發(fā)表于 07-23 07:56

    大數(shù)據(jù)在軍事方面的應用

    決策支持:大數(shù)據(jù)技術為戰(zhàn)爭決策提供了全新的思路和工具。軍事機關指揮系統(tǒng)通過搜集和分析大量的戰(zhàn)場數(shù)據(jù),可以建立復雜的決策模型,快速分析敵我態(tài)勢,評估作戰(zhàn)可行性,并推薦最優(yōu)的戰(zhàn)術方案。這種基于
    的頭像 發(fā)表于 07-16 09:44 ?1164次閱讀

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    大數(shù)據(jù)采集系統(tǒng)大數(shù)據(jù)生態(tài)系統(tǒng)中的重要組成部分,它負責從各種數(shù)據(jù)源收集、整合和存儲數(shù)據(jù)。根據(jù)不同
    的頭像 發(fā)表于 07-01 15:44 ?1651次閱讀

    大數(shù)據(jù)分析平臺網(wǎng)站

    大數(shù)據(jù)分析平臺是一種用于處理和分析大規(guī)模數(shù)據(jù)集的系統(tǒng),旨在從海量數(shù)據(jù)中提取有價值的信息和洞察。以下是大數(shù)據(jù)分析平臺的主要功能和應用場景: 主
    的頭像 發(fā)表于 06-28 15:46 ?711次閱讀

    大數(shù)據(jù)在軍事方面的應用有哪些

    大數(shù)據(jù)技術為戰(zhàn)爭決策提供了全新的思路和工具。軍事機關指揮系統(tǒng)通過搜集和分析大量的戰(zhàn)場數(shù)據(jù),可以建立復雜的決策模型,快速分析敵我態(tài)勢,評估作戰(zhàn)可行性,并推薦最優(yōu)的戰(zhàn)術方案。 利用大數(shù)據(jù)
    的頭像 發(fā)表于 06-23 10:34 ?1109次閱讀

    CYBT-343026傳輸大數(shù)據(jù)時會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個操作 SPP 的應用程序。 但是,傳輸大數(shù)據(jù)時有時會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    簡析大數(shù)據(jù)技術下智能充電樁在網(wǎng)絡系統(tǒng)中的應用

    簡析大數(shù)據(jù)技術下智能充電樁在網(wǎng)絡系統(tǒng)中的應用 張穎姣 安科瑞電氣股份有限公司?上海嘉定 201801 摘要:*近幾年來隨著我國經(jīng)濟社會的飛速發(fā)展,各方面實力都有了明顯的提升,尤其是步入21世紀以來
    的頭像 發(fā)表于 02-26 10:57 ?470次閱讀
    簡析<b class='flag-5'>大數(shù)據(jù)</b>技術下智能充電樁在網(wǎng)絡<b class='flag-5'>系統(tǒng)</b>中的應用

    大數(shù)據(jù)技術是干嘛的 大數(shù)據(jù)核心技術有哪些

    的核心技術,包括數(shù)據(jù)采集、存儲與管理、處理與分析等方面。 一、大數(shù)據(jù)技術背景和概念 1.1 背景 隨著互聯(lián)網(wǎng)技術的迅猛發(fā)展,人們可以通過各種途徑產生、獲取和傳輸數(shù)據(jù),使
    的頭像 發(fā)表于 01-31 11:07 ?3688次閱讀