淺析Hadoop集群硬件選擇

　　在搭建Hadoop大數(shù)據(jù)平臺時，我們常常會遇到硬件選擇的問題，到底什么才是我們最需要的硬件呢？小編列舉了幾條，可以助你參考一下哦。

　　雖然Hadoop被設(shè)計為可以運(yùn)行在標(biāo)準(zhǔn)的X86硬件上，但在選擇具體服務(wù)器配置的時候其實(shí)沒那么簡單。為已知的工作負(fù)載或者應(yīng)用場景選擇硬件時，往往都要綜合考慮性能因素和性價比，才能選擇合適的硬件。比如，對于IO密集型的工作負(fù)載，用戶往往需要為每個CPU core匹配更多的存儲或更高的吞吐（more spindles per core）。

　　通過本文，您將學(xué)習(xí)到如何根據(jù)工作負(fù)載來選擇硬件，包括一些其他您需要考慮的因素。

　　1.計算和存儲

　　過去的十年，業(yè)界基本已經(jīng)形成了刀片和SANs（Storage Area Networks）的標(biāo)準(zhǔn)，從而滿足網(wǎng)格和處理密集型的工作負(fù)載。這種模式對于許多標(biāo)準(zhǔn)應(yīng)用（比如Web服務(wù)器，應(yīng)用服務(wù)器，較小的結(jié)構(gòu)化數(shù)據(jù)和數(shù)據(jù)搬運(yùn)）還都是適用的，但是隨著數(shù)據(jù)量和用戶數(shù)據(jù)的增長，基礎(chǔ)設(shè)施的需求也發(fā)生了變化。Web服務(wù)器現(xiàn)在已經(jīng)有了緩存層，數(shù)據(jù)庫借助本地磁盤開始支持海量并發(fā)，數(shù)據(jù)搬運(yùn)的壓力迫使我們需要更多的在本地處理數(shù)據(jù)。

　　“很多人在搭建Hadoop集群時都沒有去真正了解過工作負(fù)載”

　　硬件供應(yīng)商更新了對應(yīng)的產(chǎn)品來滿足相應(yīng)的需求，包括存儲刀片，SAS（Serial Attached SCSI）交換機(jī)，外掛的SATA陣列和容量更大的機(jī)架。然而，Hadoop是基于一個全新的存儲和處理數(shù)據(jù)的方式，盡量避免數(shù)據(jù)傳輸。Hadoop通過軟件層來實(shí)現(xiàn)大數(shù)據(jù)的處理以及可靠性，而不像一個SAN存儲所有數(shù)據(jù)，如果計算則傳輸?shù)揭幌盗械镀M(jìn)行計算。

　　Hadoop將數(shù)據(jù)分布式存儲在各臺服務(wù)器上，使用文件副本來保證數(shù)據(jù)不丟以及容錯。這樣一個計算請求可以直接分發(fā)到存儲數(shù)據(jù)的相應(yīng)服務(wù)器并開始進(jìn)行本地計算。由于Hadoop集群的每臺節(jié)點(diǎn)都會存儲和處理數(shù)據(jù)，所以你就需要考慮怎樣為集群里的這些服務(wù)器選擇合適的配置。

　　2.為什么跟工作負(fù)載有關(guān)系

　　在很多情況下，MapReduce/Spark都會遭遇瓶頸，比如從磁盤或者網(wǎng)絡(luò)讀取數(shù)據(jù)（IO-bound的作業(yè)），或者在CPU處理大量數(shù)據(jù)時（CPU-bound的作業(yè)）。IO-bound的作業(yè)的一個例子是排序，一般需要很少的處理（簡單的比較）卻需要大量的讀寫磁盤。CPU-bound的作業(yè)的一個例子是分類（classification），一些數(shù)據(jù)往往需要很復(fù)雜的處理。

　　典型的IO-bound的工作負(fù)載如下：

　　索引（Indexing）

　　分組（Grouping）

　　數(shù)據(jù)導(dǎo)入導(dǎo)出

　　數(shù)據(jù)傳輸和轉(zhuǎn)換

　　典型的CPU-bound工作負(fù)載如下：

　　聚類和分類（Clustering/Classification）

　　復(fù)雜的文本挖掘

　　自然語言處理

　　特征提取

　　我們需要完全了解工作負(fù)載，才能夠正確的選擇合適的Hadoop硬件。很多人因?yàn)閺膩頉]有研究過工作負(fù)載，往往會導(dǎo)致Hadoop運(yùn)行的作業(yè)是基于不合適的硬件。此外，一些工作負(fù)載往往會受到一些其他的限制。比如因?yàn)檫x擇了壓縮，本應(yīng)該是IO-bound的工作負(fù)載實(shí)際卻是CPU-bound的，或者因?yàn)?a href="http://www.wenjunhu.com/v/tag/2562/" target="_blank">算法選擇不同而使MapReduce或者Spark作業(yè)受限。由于這些原因，當(dāng)您不熟悉未來將要運(yùn)行的工作負(fù)載時，可以選擇一些較為均衡的硬件配置來搭建Hadoop集群。

　　接下來我們就可以在集群中運(yùn)行一些MapReduce/Spark作業(yè)進(jìn)行基準(zhǔn)測試，來分析它們的bound方式?？梢酝ㄟ^一些監(jiān)控工具來確定工作負(fù)載的瓶頸。當(dāng)然Cloudera Manager提供了這個功能，包括CPU，磁盤和網(wǎng)絡(luò)負(fù)載的實(shí)時統(tǒng)計信息。通過Cloudera Manager，當(dāng)集群在運(yùn)行作業(yè)時，系統(tǒng)管理員可以通過dashboard很直觀的查看每臺機(jī)器的性能表現(xiàn)。

　　“第一步是了解運(yùn)維部門管理的硬件?！?/p>

　　除了根據(jù)工作負(fù)載來選擇硬件外，還可以與硬件廠商一起了解耗電和散熱以節(jié)省額外的開支。由于Hadoop是運(yùn)行在數(shù)十，數(shù)百甚至數(shù)千個節(jié)點(diǎn)上，盡可能多的考慮方方面面都可以節(jié)省成本。每個硬件廠商都提供了專門的工具來監(jiān)控耗電和散熱，以及如何改良的最佳實(shí)踐。

　　3.為CDH集群挑選硬件

　　在挑選硬件的時候，第一步是了解您的運(yùn)維部門所管理的硬件類型。運(yùn)維部門往往傾向于選擇他們熟悉的硬件。但是，如果您是在搭建一個新的集群，并且無法準(zhǔn)確的預(yù)測集群未來的工作負(fù)載，我們建議您還是選擇適合Hadoop較為均衡的硬件。

　　一個Hadoop集群通常有4個角色：NameNode（和Standby NameNode），ResourceManager，NodeManager和DataNode。集群中的絕大多數(shù)機(jī)器同時是NodeManager和DataNode，既用于數(shù)據(jù)存儲，又用于數(shù)據(jù)處理。

　　以下是較為通用和主流的NodeManager/DataNode配置：

　　12-24塊1-6TB硬盤， JBOD （Just a Bunch Of Disks）

　　2 路8核，2路10核，2路12核的CPU，主頻至少2-2.5GHz

　　64-512GB內(nèi)存

　　綁定的萬兆網(wǎng) （存儲越多，網(wǎng)絡(luò)吞吐就要求越高）

　　NameNode負(fù)責(zé)協(xié)調(diào)集群上的數(shù)據(jù)存儲，ResourceManager則是負(fù)責(zé)協(xié)調(diào)數(shù)據(jù)處理。Standby NameNode不應(yīng)該與NameNode在同一臺機(jī)器，但應(yīng)該選擇與NameNode配置相同的機(jī)器。我們建議您為NameNode和ResourceManager選擇企業(yè)級的服務(wù)器，具有冗余電源，以及企業(yè)級的RAID1或RAID10磁盤配置。

　　NameNode需要的內(nèi)存與集群中存儲的數(shù)據(jù)塊成正比。我們常用的計算公式是集群中100萬個塊（HDFS blocks）對應(yīng)NameNode的1GB內(nèi)存。常見的10-50臺機(jī)器規(guī)模的集群，NameNode服務(wù)器的內(nèi)存配置一般選擇128GB，NameNode的堆棧一般配置為32GB或更高。另外建議務(wù)必配置NameNode和ResourceManager的HA。

　　以下是NameNode/ResourceManager及其Standby節(jié)點(diǎn)的推薦配置。磁盤的數(shù)量取決于你想冗余備份元數(shù)據(jù)的份數(shù)。

　　4–6個1TB的硬盤，JBOD（1個是OS， 2個是NameNode的FS image ［RAID 1］， 1個配置給Apache ZooKeeper，還一個是配置給Journal node）

　　2路6核，2路8核的CPU，主頻至少2-2.5GHz

　　64-256GB的內(nèi)存

　　綁定的萬兆網(wǎng)

　　“記住，Hadoop生態(tài)系統(tǒng)的設(shè)計需考慮并行環(huán)境?！?/p>

　　如果預(yù)期你的Hadoop集群未來會超過20臺機(jī)器，建議集群初始規(guī)劃就跨兩個機(jī)架，每個機(jī)柜都配置柜頂（TOR，top-of-rack）的10GigE交換機(jī)。隨著集群規(guī)模的擴(kuò)大，跨越多個機(jī)架時，我們在機(jī)架之上還要配置冗余的核心交換機(jī)，帶寬一般為40GigE，用來連接所有機(jī)柜的柜頂（TOR）交換機(jī)。擁有兩個機(jī)架，可以讓運(yùn)維團(tuán)隊(duì)更好的了解機(jī)架內(nèi)以及跨機(jī)架的網(wǎng)絡(luò)通信需求。Hadoop網(wǎng)絡(luò)要求可以參考Fayson之前的文章CDH網(wǎng)絡(luò)要求（Lenovo參考架構(gòu)）。

　　當(dāng)搭建好Hadoop集群后，我們就可以開始識別和整理運(yùn)行在集群之上的工作負(fù)載，并且為這些工作負(fù)載準(zhǔn)備基準(zhǔn)測試，以定位硬件的瓶頸在哪里。經(jīng)過一段時間的基準(zhǔn)測試和監(jiān)控，我們就可以了解需要如何增加什么樣配置的新機(jī)器。異構(gòu)的Hadoop集群是比較常見的，特別是隨著數(shù)據(jù)量和用例數(shù)量的增加，集群需要擴(kuò)容時。所以如果因?yàn)榍捌诓⒉皇煜すぷ髫?fù)載，選擇了一些較為通用的服務(wù)器，也并不是不能接受。Cloudera Manager支持服務(wù)器分組，從而使異構(gòu)集群配置變的很簡單。

　　以下是不同的工作負(fù)載的常見機(jī)器配置：

　　Light Processing Configuration，1U的機(jī)器，一般為測試，開發(fā)或者低要求的場景：2個hex-core CPUs，24-64GB內(nèi)存，8個磁盤（1TB或者2TB）

　　Balanced Compute Configuration，均衡或主流的配置，1U/2U的機(jī)器：2個hex-core CPUs，48-256GB的內(nèi)存，12-16塊磁盤（1TB-4TB），硬盤為直通掛載

　　Storage Heavy Configuration，重存儲的配置，2U的機(jī)器：2個hex-core CPUs，48-128GB的內(nèi)存，16-24塊磁盤（2TB-6TB）。這種配置一旦多個節(jié)點(diǎn)或者機(jī)架故障，將對網(wǎng)絡(luò)流量造成很大的壓力

　　Compute Intensive Configuration，計算密集型的配置，2U的機(jī)器：2個hex-core CPUs，64-512GB memory，4-8塊磁盤（1TB-4TB）

　　注意：以上2路6核為最低的CPU配置，推薦的CPU選擇一般為2路8核，2路10核，2路12核

　　下圖顯示如何根據(jù)工作負(fù)載來選擇你的機(jī)器：

淺析Hadoop集群硬件選擇

　　4.其他注意事項(xiàng)

　　Hadoop生態(tài)系統(tǒng)是一個并行環(huán)境的系統(tǒng)。在選擇購買處理器時，我們不建議選擇主頻（GHz）最高的芯片，這樣一般都代表了更高電源瓦數(shù)（130W+）。因?yàn)檫@會產(chǎn)生兩個問題：更高的功率消耗和需要更多的散熱。較為均衡的選擇是在主頻，價格和核數(shù)之間做一個平衡。

　　當(dāng)存在產(chǎn)生大量中間結(jié)果的應(yīng)用程序 – 輸出結(jié)果數(shù)據(jù)與輸入數(shù)據(jù)相當(dāng)，或者需要較多的網(wǎng)絡(luò)交換數(shù)據(jù)時，建議使用綁定的萬兆網(wǎng)，而不是單個萬兆網(wǎng)口。

　　當(dāng)計算對內(nèi)存要求比較高的場景，請記住，Java最多使用10%的內(nèi)存來管理虛擬機(jī)。建議嚴(yán)格配置Hadoop使用的堆大小的限制，從而避免內(nèi)存交換到磁盤，因?yàn)榻粨Q會大大影響計算引擎如MapReduce/Spark的性能。

　　優(yōu)化內(nèi)存通道寬度也同樣重要。比如，當(dāng)使用雙通道內(nèi)存時，每臺機(jī)器都應(yīng)配置一對DIMM。使用三通道內(nèi)存時，每個機(jī)器都應(yīng)該具有三倍的DIMM。同樣，四通道DIMM應(yīng)該被分為四組。

　　5.Hadoop其他組件的考慮

　　Hadoop遠(yuǎn)遠(yuǎn)不止HDFS和MapReduce/Spark，它是一個全面的數(shù)據(jù)平臺。CDH平臺包含了很多Hadoop生態(tài)圈的其他組件。我們在做群集規(guī)劃的時候往往還需要考慮HBase，Impala和Solr等。它們都會運(yùn)行在DataNode上運(yùn)行，從而保證數(shù)據(jù)的本地性。

　　HBase是一個可靠的，列存儲數(shù)據(jù)庫，提供一致的，低延遲的隨機(jī)讀/寫訪問。Cloudera Search通過Solr實(shí)現(xiàn)全文檢索，Solr是基于Lucene，CDH很好的集成了Solr Cloud和Apache Tika，從而提供更多的搜索功能。Apache Impala則可以直接運(yùn)行在HDFS和HBase之上，提供交互式的低延遲SQL查詢，避免了數(shù)據(jù)的移動和轉(zhuǎn)換。

　　由于GC超時的問題，建議的HBase RegionServer的heap size大小一般為16GB，而不是簡單的越大越好。為了保證HBase實(shí)時查詢的SLA，可以通過Cgroups的的方式給HBase分配專門的靜態(tài)資源。

　　Impala是內(nèi)存計算引擎，有時可以用到集群80%以上的內(nèi)存資源，因此如果要使用Impala，建議每個節(jié)點(diǎn)至少有128GB的內(nèi)存。當(dāng)然也可以通過Impala的動態(tài)資源池來對查詢的內(nèi)存或用戶進(jìn)行限制。

　　Cloudera Search在做節(jié)點(diǎn)規(guī)劃時比較有趣，你可以先在一個節(jié)點(diǎn)安裝Solr，然后裝載一些文檔，建立索引，并以你期望的方式進(jìn)行查詢。然后繼續(xù)裝載，直到索引建立以及查詢響應(yīng)超過了你的預(yù)期，這個時候你就需要考慮擴(kuò)展了。單個節(jié)點(diǎn)Solr的這些數(shù)據(jù)可以給你提供一些規(guī)劃時的參考，但不包括復(fù)制因子因素。

　　6.總結(jié)

　　選擇并采購Hadoop硬件時需要一些基準(zhǔn)測試，應(yīng)用場景測試或者Poc，以充分了解你所在企業(yè)的工作負(fù)載情況。但Hadoop集群也支持異構(gòu)的硬件配置，所以如果在不了解工作負(fù)載的情況下，建議選擇較為均衡的硬件配置。還需要注意一點(diǎn)，Hadoop平臺往往都會使用多種組件，資源的使用情況往往都會不一樣，專注于多租戶的設(shè)計包括安全管理，資源隔離和分配，將會是你成功的關(guān)鍵。

閱讀全文

處理器(221453) 處理器(221453)
Hadoop(15812) Hadoop(15812)
大數(shù)據(jù)(136505) 大數(shù)據(jù)(136505)

如何將Hadoop部署在低廉的硬件上

Hadoop 是 Apache 軟件基金會下一個開源分布式計算平臺，以 HDFS（Hadoop Distributed File System）、MapReduce（Hadoop2.0 加入

2022-09-27 09:40:01

1162

Hadoop 311高可用HA安裝步驟

大數(shù)據(jù)基礎(chǔ)Hadoop311 的高可用HA安裝～踩坑記錄

2019-09-20 08:23:27

Hadoop namenode無法啟動常見解決辦法

當(dāng)你在學(xué)習(xí)和使用hadoop時，也許會遇到這樣的一個問題，運(yùn)行bin/start-all.sh時發(fā)現(xiàn)namenode沒有啟動，可以通過以下方法進(jìn)行排查解決：翻看日志，尋找錯誤提示，并進(jìn)行內(nèi)容的改進(jìn)

2018-01-04 14:27:08

Hadoop-260 HA部署步驟

Hadoop-260 HA(高可用架構(gòu))部署(超詳細(xì))

2019-09-12 09:38:43

Hadoop集群偽分布式的搭建步驟

Hadoop集群偽分布式搭建

2019-11-04 09:19:29

Hadoop命令手冊

Hadoop教程：命令手冊

2020-03-18 11:28:02

Hadoop和YARN環(huán)境搭建

Hadoop單機(jī)環(huán)境搭建

2019-06-06 06:42:20

Hadoop基礎(chǔ)入門之發(fā)行版本的選擇

是什么？Hadoop能夠幫助我們做什么？以及hadoop的使用場景等基本問題，對于初學(xué)者而言選擇一個合適的hadoop版本作為學(xué)習(xí)平臺也是非常重要的事情。國內(nèi)的Hadoop商業(yè)發(fā)行版還是比較多，以對hadoop

2018-11-28 13:25:46

Hadoop安裝和操作

Hadoop安裝（偽集群）

2019-10-16 10:39:41

Hadoop平臺基本組成

Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架，以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理，其有許多元素構(gòu)成，以下是其組成元素：1.Hadoop Common ：Hadoop體系最底層的一

2018-05-16 16:04:57

Hadoop新手篇：hadoop入門基礎(chǔ)教程

一起才是完整。1. 《hadoop集群管理系統(tǒng)搭建規(guī)劃說明》2. 《最新虛擬機(jī)搭建hadoop環(huán)境詳細(xì)圖文教程》3. 《Hadoop偽分布式環(huán)境搭建之Linux系統(tǒng)安裝教程》4. 《hadoop服務(wù)器

2019-01-09 15:39:39

Hadoop的集群環(huán)境部署說明

Hadoop集群環(huán)境搭建是很多學(xué)習(xí)hadoop學(xué)習(xí)者或者是使用者都必然要面對的一個問題，網(wǎng)上關(guān)于hadoop集群環(huán)境搭建的博文教程也蠻多的。對于玩hadoop的高手來說肯定沒有什么問題，甚至可以說

2018-10-12 15:51:49

Hadoop的Join應(yīng)用

Hadoop中Join多種應(yīng)用

2020-03-31 11:32:58

Hadoop的standalone模式和Hadoop-yarn模式

Hadoop任務(wù)調(diào)度策略

2019-05-10 17:01:21

Hadoop的整體框架組成

Hadoop是一個用Java編寫的Apache開源框架，允許使用簡單的編程模型跨計算機(jī)集群分布式處理大型數(shù)據(jù)集。Hadoop框架工作的應(yīng)用程序在跨計算機(jī)集群提供分布式存儲和計算的環(huán)境中工作

2018-05-11 16:00:10

Hadoop相關(guān)PDF下載

Elasticsearch集成Hadoop最佳實(shí)踐 PDF 下載，Hadoop權(quán)威指南大數(shù)據(jù)的存儲與分析PDF 下載

2019-05-08 17:01:00

hadoop 27集群安裝JDK

hadoop 27集群搭建

2020-04-02 06:28:23

hadoop hdfs 文件優(yōu)點(diǎn)

了一些POSIX的必須接口，容許流式訪問文件系統(tǒng)的數(shù)據(jù)。2. 高容錯性能HDFS面向的是成百上千的服務(wù)器集群，每臺服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù)，在集群的環(huán)境中，硬件故障是常見的問題，這就意味著總是有

2018-03-23 14:22:23

hadoop集群搭建的準(zhǔn)備

hadoop集群搭建系列（step01：集群搭建準(zhǔn)備）

2020-03-31 09:47:17

hadoop集群的NameNod

hadoop集群部署

2019-08-20 14:33:13

hadoop集群配置方法

hadoop集群配置

2019-09-30 14:16:14

hadoop不同版本有哪些

）用于作業(yè)調(diào)度和集群資源管理的Hadoop YANRN框架；（4）Hadoop MapReduce，基于YARN的大數(shù)據(jù)并行處理系統(tǒng)。2、Cloudera hadoop：Cloudera版本層次更加

2018-09-18 11:58:18

hadoop發(fā)行版本之間的區(qū)別

，本文就各發(fā)行版做簡單對比介紹。對比版選擇：DKhadoop發(fā)行版、cloudera發(fā)行版、hortonworks發(fā)行版、MAPR發(fā)行版、華為hadoop發(fā)行版l 1、DKhadoop發(fā)行版：有效的集成

2018-09-18 16:30:32

hadoop和spark的區(qū)別

，即便如此二者各自存在的目的是不同的。Hadoop是一個分布式的數(shù)據(jù)基礎(chǔ)設(shè)施，它是將龐大的數(shù)據(jù)集分派到由若干臺計算機(jī)組成的集群中的多個節(jié)點(diǎn)進(jìn)行存儲。Spark是一個專門用來對那些分布式存儲的大數(shù)據(jù)進(jìn)行

2018-11-30 15:51:36

hadoop工作流程

Hadoop主要是分布式計算和存儲的框架，其工作過程主要依賴于HDFS分布式存儲系統(tǒng)和Mapreduce分布式計算框架，以下是其工作過程：階段 1用戶/應(yīng)用程序可以通過指定以下項(xiàng)目來向Hadoop

2018-05-11 16:02:03

hadoop無法訪問50070端口解決方案

Hadoop50070是hdfs的web管理頁面，在搭建Hadoop集群環(huán)境時，有些大數(shù)據(jù)開發(fā)技術(shù)人員會遇到Hadoop 50070端口打不開的情況，引起該問題的原因很多，想要解決這個問題需要從以下

2018-04-10 16:02:13

hadoop最新發(fā)行穩(wěn)定版：DKHadoop版本選擇詳解

我們想象的要大，對新手而言選擇一個合適的hadoop版本就意味著上手更快！Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)，它最核心的設(shè)計就是HDFS和MapReduce。HDFS為海量的數(shù)據(jù)

2018-12-28 16:08:44

hadoop框架結(jié)構(gòu)的說明介紹

發(fā)行版，可單獨(dú)發(fā)布。獨(dú)立部署FreeRCH（大快大數(shù)據(jù)一體化開發(fā)框架）時，必需的組件。DK.HADOOP整合集成了NOSQL數(shù)據(jù)庫，簡化了文件系統(tǒng)與非關(guān)系數(shù)據(jù)庫之間的編程；DK.HADOOP改進(jìn)了集群

2018-10-15 15:59:43

淺析Hadoop源碼的Partitioner類

Hadoop源碼解析之Partitioner類

2020-03-27 09:41:52

淺析hadoop集群集成Hive

Hive：可以對數(shù)據(jù)轉(zhuǎn)換為類SQL執(zhí)行，調(diào)用hadoop mapreduce進(jìn)行分布式計算。據(jù)說facebook的95%統(tǒng)計分析由此進(jìn)行。有了分布式后ad hoc查詢也變成可能。所以該軟件還是不錯的。

2019-07-15 06:34:12

集群通信網(wǎng)絡(luò)是什么？數(shù)字集群移動通信網(wǎng)絡(luò)是如何運(yùn)行的？

2021-05-26 06:27:08

CentSO下hadoop的偽分布式搭建

CentSO下hadoop的集群搭建

2019-05-15 12:52:22

DataNode的工作機(jī)制解析

:///${hadoop.tmp.dir}/dfs/data01,file:///${hadoop.tmp.dir}/dfs/data02二、黑白名單配置1、白名單設(shè)置配置白名單，該配置分發(fā)到集群服務(wù)下

2021-01-05 17:11:03

ES集群的安裝步驟

ES集群安裝填坑記

2019-05-08 17:09:08

Kafka集群環(huán)境的搭建

1、環(huán)境版本版本：kafka2.11，zookeeper3.4注意：這里zookeeper3.4也是基于集群模式部署。2、解壓重命名tar -zxvf

2021-01-05 17:55:37

Linux的集群搭建方法

集群（cluster）技術(shù)是一種較新的技術(shù)，通過集群技術(shù)，可以在付出較低成本的情況下獲得在性能、可靠性、靈活性方面的相對較高的收益，其任務(wù)調(diào)度則是集群系統(tǒng)中的核心技術(shù)。

2019-07-16 07:46:30

Spark和Hadoop的對比

【Spark系列】：Spark為什么比Hadoop快

2020-04-06 09:11:41

copy模式的DRDS集群

層多活解決方案。DRDS按照之前說的業(yè)務(wù)數(shù)據(jù)拆分的維度，阿里云DRDS有兩種集群分別支持買家維度與賣家維度：unit 模式的DRDS集群：多地用戶分別在本地域讀寫本地域的數(shù)據(jù)，且本地域的數(shù)據(jù)會和中心數(shù)據(jù)做雙向同步。copy 模式的DRDS集群：此集群數(shù)據(jù)在中心數(shù)據(jù)庫寫，完成后全.

2021-11-16 09:23:44

linux下hadoop集群常用命令

1.上傳文件 1）hadoop fs -put words.txt /path/to/input/ 2）hdfs dfs -put words.txt /path/wc/input/2.獲取hdfs

2019-07-08 08:10:31

【ELT.ZIP】OpenHarmony啃論文俱樂部——大數(shù)據(jù)框架性能優(yōu)化系統(tǒng)

測試并確定集群 I/O 速度。 TestDFSIO 對于識別網(wǎng)絡(luò)瓶頸和強(qiáng)調(diào)集群節(jié)點(diǎn)上的硬件、操作系統(tǒng)和 Spark/Hadoop 配置也是必不可少的。 TestDFSIO 10 使用單獨(dú)的 Map 任務(wù)

2022-07-22 21:26:53

【學(xué)習(xí)打卡】【ELT.ZIP】OpenHarmony啃論文俱樂部——大數(shù)據(jù)框架性能優(yōu)化系統(tǒng)

2022-07-22 21:31:37

從零開始學(xué)習(xí)hadoop？hadoop快速入門

Hadoop是在分布式服務(wù)器集群上存儲海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的一個平臺，其核心部件是HDFS與MapReduce。HDFS是一個分布式文件系統(tǒng)，可對數(shù)據(jù)系統(tǒng)進(jìn)行分布式儲存讀取

2018-03-13 15:21:18

你的數(shù)據(jù)安全么？Hadoop再曝安全漏洞| 黑客利用Hadoop Yarn資源管理系統(tǒng)未授權(quán)訪問漏洞進(jìn)行攻擊

的 MapReduce 算法進(jìn)行分布式處理，Yarn是Hadoop集群的資源管理系統(tǒng)。4月30日，阿里云發(fā)現(xiàn)，俄羅斯黑客利用Hadoop Yarn資源管理系統(tǒng)REST API未授權(quán)訪問漏洞進(jìn)行攻擊

2018-05-08 16:52:39

關(guān)于計算機(jī)的硬件維護(hù)的淺析

大家搜索整理的關(guān)于計算機(jī)的硬件維護(hù)的淺析，歡迎參考閱讀，希望對您有所幫助!隨著社會的進(jìn)步，科學(xué)技術(shù)的發(fā)展，信息的傳播方式以計算機(jī)傳播為主。這就需要我們定期對良好計算機(jī)進(jìn)行防范檢查，對故障計算機(jī)進(jìn)行安全維...

2021-09-08 08:07:36

分布式Hadoop的搭建步驟

搭建分布式Hadoop

2019-05-22 13:11:34

啟動腳本和HDFS的默認(rèn)配置屬性

《Hadoop》之踽踽獨(dú)行（八）Hadoop集群的啟動腳本整理及守護(hù)線程源碼

2019-11-01 09:14:43

在Mac上編譯Hadoop源碼的過程

Mac編譯Hadoop源碼

2019-08-29 08:47:59

在Ubuntu上安裝Hadoop單機(jī)版的方法

Ubuntu上安裝Hadoop集群

2020-03-24 11:09:49

基于linux的hadoop的272源碼編譯

linux下編譯hadoop的272的源碼

2020-04-02 11:48:38

大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解

` 大數(shù)據(jù)這個詞也許幾年前你聽著還會覺得陌生，但我相信你現(xiàn)在聽到hadoop這個詞的時候你應(yīng)該都會覺得“熟悉”！越來越發(fā)現(xiàn)身邊從事hadoop開發(fā)或者是正在學(xué)習(xí)hadoop的人變多了。作為一個

2018-12-26 15:02:33

學(xué)hadoop需要什么基礎(chǔ)

最近一段時間一直在接觸關(guān)于hadoop方面的內(nèi)容，從剛接觸時的一片空白，到現(xiàn)在也能夠說清楚一些問題。這中間到底經(jīng)歷過什么只怕也就是只有經(jīng)過的人才會體會到吧。前幾天看到有個人問“學(xué)hadoop需要

2018-09-20 16:00:57

學(xué)習(xí)hadoop需要什么基礎(chǔ)

的時候直接調(diào)用即可，終于讓我覺得不用在像以前拿樣再去安裝調(diào)試等等。所以，我覺得學(xué)習(xí)hadoop需要的不僅僅是JAVA、虛擬機(jī)、Linux這三個方面的基礎(chǔ)，選擇的hadoop版本也是很重要。我們學(xué)習(xí)

2018-09-13 13:37:51

實(shí)用貼:hadoop系統(tǒng)下載安裝教程

文章：第一篇：《hadoop集群管理系統(tǒng)搭建規(guī)劃說明》第二篇：《最新虛擬機(jī)搭建hadoop環(huán)境詳細(xì)圖文教程》第三篇：《Hadoop偽分布式環(huán)境搭建之Linux系統(tǒng)安裝教程》第四篇：《hadoop服務(wù)器基礎(chǔ)環(huán)境搭建之Hadoop服務(wù)器配置教程》

2019-01-25 14:50:28

山西嵌入式系統(tǒng)課程| Spark與Hadoop計算模型之Spark比Hadoop更...

上次我們分享了Spark與Hadoop計算模型的內(nèi)存問題，今天山西思軟嵌入式學(xué)員為大家分享Spark與Hadoop計算模型的Spark比Hadoop更通用的問題。 Spark提供的數(shù)據(jù)集操作類型

2012-11-17 16:44:30

快速入門Hadoop

大數(shù)據(jù)初學(xué)者的福利——Hadoop快速入門教程

2020-04-15 11:38:59

模擬集群和數(shù)字集群之間的區(qū)別和特點(diǎn)

　　模擬集群通信是指它采用模擬話音進(jìn)行通信，整個系統(tǒng)內(nèi)沒有數(shù)字制技術(shù)，后來為了使通信連接更為可靠，不少集群通信系統(tǒng)供應(yīng)商采用了數(shù)字信令，使集群通信系統(tǒng)的用戶連接比較可靠、聯(lián)通的速度有所提高，而且系統(tǒng)

2016-12-22 15:10:30

求MySQL集群配置的思路分享？

PXC集群方案可以完全滿足三臺以上的MySQL部署，但有時也會遇到只有2臺服務(wù)器的情況，所以有必要再去熟悉下MySQL的基礎(chǔ)主從或者主主集群的方式。

2020-11-05 08:06:39

詳解Hadoop源碼

Hadoop源碼分析——JobClient

2019-09-30 10:47:07

詳解hadoop架構(gòu)

最全hadoop架構(gòu)總結(jié)

2019-05-29 16:08:16

超詳細(xì)hadoop集群服務(wù)器安裝配置教程

的其他用戶可讀可執(zhí)行，其他用戶組可讀可執(zhí)行。命令：cd /root/unzip DKHPlantform.zipchmod -R 755 DKHPlantform2、搭建Hadoop集群設(shè)置SSH免密

2019-01-23 15:22:11

阿里云上Kubernetes集群聯(lián)邦

3dv1.8.4cn-beijing.i-2zeipodwz2junyipunrfReady3dv1.8.4部署federation控制平面選擇杭州的子集群作為Federation的宿主集群，安裝Federation

2018-03-12 17:10:52

面向集群的數(shù)據(jù)加密系統(tǒng)

根據(jù)高性能集群對集群節(jié)點(diǎn)間通信性能的需求，提出了基于MAC 包的高速通信協(xié)議，使集群節(jié)點(diǎn)間的數(shù)據(jù)得以快速傳輸。集群節(jié)點(diǎn)硬件中采用專用數(shù)據(jù)處理芯片，實(shí)現(xiàn)RSA 算法和對

2010-01-22 15:16:30

什么是集群

什么是集群????? ??????? 簡單的說，集群（cluster）就是一

2009-12-29 09:32:03

2804

Hadoop源代碼eclipse編譯教程

Hadoop各成員源代碼下載地址：http://svn.apache.org/repos/asf/hadoop，請使用SVN下載，在SVN瀏覽器中將trunk目錄下的源代碼check-out出來即可：

2011-04-03 22:15:08

[6.1.1]--6.1.1Hadoop概述視頻截取

Hadoop

學(xué)習(xí)電子知識發(fā)布于 2022-12-01 21:41:44

[6.1.3]--6.1.2Hadoop安裝配置實(shí)驗(yàn)二：集群版

Hadoop

學(xué)習(xí)電子知識發(fā)布于 2022-12-01 21:42:28

用Linux和Apache Hadoop進(jìn)行云計算

用Linux和Apache Hadoop進(jìn)行云計算使用Linux 和 Hadoop 進(jìn)行分布式計算介紹Hadoop 框架.

2012-03-31 15:23:34

一種多層次Hadoop平臺設(shè)計

一種多層次Hadoop平臺設(shè)計_李兆興

2017-01-03 18:03:20

Hadoop環(huán)境的搭建與管理--謝志明

Hadoop環(huán)境的搭建與管理--謝志明.pptx

2017-02-14 17:17:23

基于Hadoop集群的分布式入侵檢測系統(tǒng)的設(shè)計與實(shí)現(xiàn)_謝天宇

基于Hadoop集群的分布式入侵檢測系統(tǒng)的設(shè)計與實(shí)現(xiàn)_謝天宇

2017-03-18 09:53:54

hadoop大數(shù)據(jù)windows搭建環(huán)境

hadoop大數(shù)據(jù)windows搭建環(huán)境

2017-09-08 08:52:44

基于Ubuntu的Hadoop集群安裝與配置

基于Ubuntu的Hadoop集群安裝與配置

2017-09-08 14:20:59

基于Hadoop的幾種排序算法研究

對Hadoop平臺的幾種現(xiàn)有的排序算法的分析比較，發(fā)現(xiàn)頻繁的讀寫磁盤降低數(shù)據(jù)處理的效率，提出了一種優(yōu)化現(xiàn)有排序算法的置換選擇算法，并進(jìn)行了測試，測試結(jié)果表明，該算法簡化了運(yùn)行過程，可實(shí)現(xiàn)更快速的合并，從而提高數(shù)據(jù)處理的效率，對Hadoop的性能優(yōu)化具有現(xiàn)實(shí)意義。

2017-11-08 17:25:28

異構(gòu)Hadoop集群下的負(fù)載自適應(yīng)反饋調(diào)度策略

隨著基于Hadoop平臺的大數(shù)據(jù)技術(shù)的不斷發(fā)展和實(shí)踐的深入，Hadoop YARN資源調(diào)度策略在異構(gòu)集群中的不適用性越發(fā)明顯。一方面，節(jié)點(diǎn)資源無法動態(tài)分配，導(dǎo)致優(yōu)勢節(jié)點(diǎn)的計算資源浪費(fèi)、系統(tǒng)性能沒有

2017-11-22 11:46:19

基于Hadoop的I/O硬件壓縮加速器

，因此使用硬件壓縮加速器來替換軟件壓縮。Hadoop運(yùn)行在Java虛擬機(jī)上，無法直接調(diào)用底層I/O硬件壓縮加速器。通過實(shí)現(xiàn)Hadoop壓縮器／解壓縮器類和設(shè)計C++動態(tài)鏈接庫來解決從Hadoop系統(tǒng)中獲得壓縮數(shù)據(jù)和將數(shù)據(jù)流向I/O硬件壓縮加速器兩個關(guān)鍵技術(shù)，從而將I/O硬件壓縮加速

2017-11-27 10:49:05

Hadoop學(xué)習(xí)之概念命令操作java操作

Hadoop學(xué)習(xí)筆記（一）—-概念命令操作java操作1. Hadoop概述 HADOOP是apache旗下的一套開源軟件平臺，利用服務(wù)器集群，根據(jù)用戶的自定義業(yè)務(wù)邏輯，對海量數(shù)據(jù)進(jìn)行分布式處理

2017-11-27 20:03:02

920

基于Hadoop+CUDA平臺實(shí)現(xiàn)軟相關(guān)器的方法

根據(jù)2ICMA相關(guān)器的算法特點(diǎn)，在對比基于CPU并行的MPI集群、MPI+CUDA異構(gòu)并行集群和Hadoop+ CUDA異構(gòu)并行集群的架構(gòu)特點(diǎn)的基礎(chǔ)上，提出了一種基于Hadoop+ CUDA平臺實(shí)現(xiàn)

2017-12-06 10:12:26

hadoop優(yōu)缺點(diǎn)分析

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)，簡稱HDFS。

2017-12-25 15:28:52

16583

hadoop開發(fā)環(huán)境搭建

Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。Hadoop 是可靠的，因?yàn)樗僭O(shè)計算元素和存儲會失敗，因此它維護(hù)多個工作數(shù)據(jù)副本，確保能夠針對失敗的節(jié)點(diǎn)重新分布處理。

2017-12-25 15:55:55

2664

hadoop技術(shù)原理總結(jié)

Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System（HDFS），它存儲 Hadoop 集群中所有存儲節(jié)點(diǎn)上的文件。HDFS（對于本文）的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。

2017-12-25 16:19:47

4003

hadoop是什么_華為大數(shù)據(jù)平臺hadoop你了解多少

Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載（ETL）方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu)，將大數(shù)據(jù)處理引擎盡可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲。

2017-12-25 16:46:13

22756

hadoop基礎(chǔ)知識介紹_hadoop是什么語言開發(fā)的_hadoop能做什么

計算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計算（或?qū)殡x線和大規(guī)模數(shù)據(jù)分析而設(shè)計的）并不適合那種對幾個記錄隨機(jī)讀寫的在線事務(wù)處理模式。 Hadoop=HDFS（文件系統(tǒng)，數(shù)據(jù)存儲技術(shù)相關(guān)）+ Mapreduce（數(shù)據(jù)處理），Hadoop的數(shù)據(jù)來源可以是任何形式，在處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

2017-12-29 16:32:40

39568

Hadoop_java與python的關(guān)系

　python 是一門動態(tài)語言，hadoop是一個分布式計算的框架，是用java寫的。他們是兩個層次的東西。

2017-12-29 16:58:59

2609

hadoop與數(shù)據(jù)挖掘的關(guān)系_區(qū)別_哪個好

大數(shù)據(jù)就是Hadoop嗎？當(dāng)然不是，但是很多人一提到大數(shù)據(jù)就會立刻想到Hadoop。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級計算時代，很快便可應(yīng)用于普通企業(yè)，在遍地開花的過程中，它將改變許多行業(yè)業(yè)務(wù)經(jīng)營的模式。但是很多人對大數(shù)據(jù)存在誤解，下面就來縷一縷大數(shù)據(jù)與Hadoop之間的關(guān)系。

2018-01-02 09:21:18

4512

如何搭建hadoop平臺_hadoop平臺搭建步驟

如何搭建hadoop平臺如下所示，一、虛擬機(jī)及系統(tǒng)安裝二、在虛擬機(jī)中配置JAVA環(huán)境三、修改hosts...

2018-01-02 09:29:26

8864

hadoop基本命令大全

本文比較全面的向大家介紹一下Hadoop命令，歡迎大家一起來學(xué)習(xí)，希望通過本節(jié)的介紹大家能夠掌握一些常見Hadoop命令的使用方法。Hadoop命令以及常見Hadoop命令使用方法詳解如下

2018-01-02 10:17:27

8081

hadoop云存儲解決方案

2018-02-12 10:03:33

6255

什么是Hadoop? Spark和Hadoop對比

Hadoop在2006年開始成為雅虎項(xiàng)目，隨后成為頂級的Apache開源項(xiàng)目。它是一種通用的分布式處理形式，具有多個組件： HDFS(分布式文件系統(tǒng))，它將文件以Hadoop本機(jī)格式存儲，并在集群中并行化; YARN，協(xié)調(diào)應(yīng)用程序運(yùn)行時的調(diào)度程序.

2018-06-04 12:48:00

6565

Hadoop 架構(gòu)分布式計算

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作為 Lucene 的子項(xiàng)目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發(fā)

2018-04-09 11:10:35

阿里云發(fā)布國內(nèi)首個大數(shù)據(jù)雙活容災(zāi)服務(wù)

雙活容災(zāi)方案HDR-BD引入了業(yè)界領(lǐng)先的大數(shù)據(jù)雙向復(fù)制技術(shù)，結(jié)合強(qiáng)大的公共云基礎(chǔ)設(shè)施，可以滿足極高要求的大數(shù)據(jù)災(zāi)備場景，為企業(yè)Hadoop集群數(shù)據(jù)保護(hù)提供了全新的選擇。HDR-BD的優(yōu)勢在于：極低

2018-08-15 16:35:11

221

大數(shù)據(jù)工程師值得一考的4個Hadoop認(rèn)證

企業(yè)版集群，解決8~12個場景下的任務(wù) 2、CCA Spark and Hadoop Developer (CCA175) 開發(fā)者認(rèn)證認(rèn)證準(zhǔn)備建議：Spark and Hadoop開發(fā)者培訓(xùn) 考試形式

2018-09-06 12:55:02

564

一系列最好的Hadoop書籍，幫助你更輕松的上手這項(xiàng)技術(shù)

本書對于那些需要分析數(shù)據(jù)集和建立Hadoop集群的程序員來說，絕對是一本理想指南，它將教你如何使用Apache Hadoop構(gòu)建和維護(hù)可靠的、可伸縮的分布式系統(tǒng)。還有一些關(guān)于YARN的章節(jié)以及

2019-03-01 14:44:57

9115

大數(shù)據(jù)Hadoop的優(yōu)點(diǎn)和缺點(diǎn)分別是什么

Hadoop的優(yōu)點(diǎn) （1）Hadoop具有按位存儲和處理數(shù)據(jù)能力的高可靠性。（2）Hadoop通過可用的計算機(jī)集群分配數(shù)據(jù)，完成存儲和計算任務(wù)，這些集群可以方便地擴(kuò)展到數(shù)以千計的節(jié)點(diǎn)中，具有

2019-10-04 12:16:00

6476

eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena

Hadoop核心層，包括Hadoop運(yùn)行時環(huán)境、一些通用設(shè)施和HDFS，其中文件系統(tǒng)為讀寫大塊數(shù)據(jù)而做了一些優(yōu)化，如將塊的大小由128MB改為256MB。

2020-03-20 11:03:43

2521

虛擬機(jī)：Hadoop集群的測試

通過前面的學(xué)習(xí)，此時還不能直接啟動集群，因?yàn)樵诔醮螁親DFS集群時，編寫對主節(jié)點(diǎn)進(jìn)行格式化處理

2020-07-01 13:03:31

2316

虛擬機(jī)：Hadoop集群的搭建

虛擬機(jī)：Hadoop集群的搭建

2020-07-01 13:03:26

2938

虛擬機(jī)：Hadoop集群的配置

虛擬機(jī)：Hadoop集群的配置

2020-07-01 14:14:18

2520

Kubernetes集群中如何選擇工作節(jié)點(diǎn)

簡要概述：本文討論了在Kubernetes集群中選擇較少數(shù)量的較大節(jié)點(diǎn)和選擇較多數(shù)量的較小節(jié)點(diǎn)之間的利弊。

2023-08-28 15:46:40

317

淺析Ranther管理K8S集群

Rancher 基于 Kubernetes 添加了新的功能，包括統(tǒng)一所有集群的身份驗(yàn)證和 RBAC，讓系統(tǒng)管理員從一個位置控制全部集群的訪問。

2024-01-21 10:28:03

413

Hadoop是什么?其核心由兩大部分組成,分別是什么?

Hadoop是一個開源的分布式計算框架，它可以處理大規(guī)模數(shù)據(jù)集并能夠在通常由計算機(jī)集群或者計算機(jī)網(wǎng)絡(luò)上的數(shù)千臺計算機(jī)上并行運(yùn)行。Hadoop的設(shè)計初衷是為了解決大規(guī)模數(shù)據(jù)處理和分析的問題，它采用

2024-02-05 10:52:01

301

已全部加載完成