大數(shù)據(jù)存儲的演變的過程 Hadoop Hdfs出現(xiàn)原因分析

我們都知道現(xiàn)在大數(shù)據(jù)存儲用的基本都是 Hdfs ，但在 Hadoop 誕生之前，我們都是如何存儲大量數(shù)據(jù)的呢?這次我們不聊技術(shù)架構(gòu)什么的，而是從技術(shù)演化的角度來看看 Hadoop Hdfs。

我們先來思考兩個問題。

在 Hdfs 出現(xiàn)以前，計算機(jī)是通過什么手段來存儲“大數(shù)據(jù)” 的呢?

為什么會有 Hadoop Hdfs 出現(xiàn)呢?

在 Hdfs 出現(xiàn)以前，計算機(jī)是通過什么手段來存儲“大數(shù)據(jù)”

要知道，存儲大量數(shù)據(jù)有三個最重要的指標(biāo)，那就是速度，容量，容錯性。速度和容量的重要性毋庸置疑，如果容量不夠大，或者讀取的速度不夠快，那么海量數(shù)據(jù)存儲也就無從談起了。而磁盤又是計算機(jī)中很容易損壞的零件，當(dāng)磁盤損壞的時候怎么辦?放任數(shù)據(jù)的丟失嗎，那可不行，這就有了容錯性的需求。

在沒有分布式存儲的時代，單個磁盤容量不夠怎么辦?加磁盤唄。磁盤容易壞怎么辦，同時用其他磁盤備份唄。就這樣，獨立磁盤冗余陣列( Redundant Array of Independent Disks )，簡稱 RAID，誕生了。

在 2000 年以前，磁盤還是很珍貴的資源，不像現(xiàn)在，磁盤是 PC 機(jī)中最廉價的部件。一開始 RAID 技術(shù)是為了將多個廉價的容量較小的磁盤組合起來充當(dāng)一個大磁盤以節(jié)約成本，但后來人們發(fā)現(xiàn)這項技術(shù)也可以用在單臺機(jī)器磁盤擴(kuò)容上了，于是 RAID 技術(shù)開始被廣泛使用。

RAID 技術(shù)將多個磁盤組合成一個邏輯扇區(qū)，對計算機(jī)而言，它會將 RAID 當(dāng)作一個磁盤來處理。使用 RAID 的好處有：增強(qiáng)數(shù)據(jù)集成度，增強(qiáng)容錯功能，增加處理量或容量。

另外 RAID 也有分為多個檔次，標(biāo)準(zhǔn)的分法，分別是 RAID0 ， RAID1 ， RAID2 ，RAID3 ，RAID4 ，RAID5 ， RAID6 ，每個檔次都有對應(yīng)的優(yōu)缺點。這里就不詳細(xì)介紹，這些 RAID 等級的不同主要是對上述說到的三個數(shù)據(jù)存儲要素(速度，容量，容錯性)的不同取舍，各有各的應(yīng)用場景。我們從上述的三個指標(biāo)來看 RAID 技術(shù)。

速度： RAID通過在多個磁盤上同時存儲和讀取數(shù)據(jù)來大幅提高存儲系統(tǒng)的數(shù)據(jù)吞吐量。在RAID中，可以讓很多磁盤驅(qū)動器同時傳輸數(shù)據(jù)，而這些磁盤驅(qū)動器在邏輯上又是一個磁盤驅(qū)動器，所以使用RAID可以達(dá)到單個磁盤驅(qū)動器幾倍、幾十倍甚至上百倍的速率。

容量：可以將多個磁盤連接起來，對比以前的單個磁盤存儲，RAID 將存儲的量級拔高了一個臺階。但依舊有其局限性，因為 RAID 始終是放在單臺機(jī)器上，機(jī)器的磁盤卡槽不可能無限增加，磁盤也不可能一直增大。

容錯性：不同等級的 RAID 使用不同的數(shù)據(jù)冗余策略，保證數(shù)據(jù)的容錯性。比如最簡單的 RAID1 就是數(shù)據(jù)在寫入磁盤時，將一份數(shù)據(jù)同時寫入兩塊磁盤，這樣任何一塊磁盤損壞都不會導(dǎo)致數(shù)據(jù)丟失，而插入一塊新磁盤就可以通過復(fù)制數(shù)據(jù)的方式自動修復(fù)，具有極高的可靠性。

為什么會有 Hadoop Hdfs 出現(xiàn)

最直接是原因是 Google 三篇大數(shù)據(jù)論文的發(fā)表，這直接導(dǎo)致了 Hadoop 的問世。

但更深層的原因其實還是因為傳統(tǒng)的但節(jié)點磁盤容量達(dá)到了極限，即便是用上述的 RAID 技術(shù)，但單個臺服務(wù)器的容量始終有一個邊界值。而且隨著互聯(lián)網(wǎng)的普及，在 2000 年后，數(shù)據(jù)的積累呈指數(shù)式增長，這時候單臺服務(wù)器顯然已經(jīng)放不下這海量的數(shù)據(jù)了。但是就像 RAID 的改革思想一樣，既然單臺服務(wù)器不夠，那我們就加服務(wù)器唄。

最早是 Google ，他們在自己的系統(tǒng)上實現(xiàn)了 Google File System(GFS) 這么一個分布式存儲系統(tǒng)，并在 03 年的時候?qū)⑺膶崿F(xiàn)論文發(fā)表了出來。

但要將多臺服務(wù)器聯(lián)合在一起進(jìn)行分布式存儲，顯然不是那么容易。Hadoop1.0 的時候，Hdfs 還是有一些隱患的。舉個例子，用分布式進(jìn)行數(shù)據(jù)存儲，那就需要一個來記錄元數(shù)據(jù)的服務(wù)器，也就是記錄數(shù)據(jù)存儲位置的服務(wù)器。Hadoop1.0 時候的 Hdfs 是用一個 namenode 管理元數(shù)據(jù)的，但顯然，只有一個 namenode 來存儲元數(shù)據(jù)有極大的風(fēng)險，那就是 namenode 的可靠性無法保證，一旦這個 namenode 掛掉，整個集群就完蛋了。

好在這些問題及時得到修復(fù)，Hadoop2.0 橫空出世，架構(gòu)升級，解決了大部分的問題，Hdfs 這才算是坐穩(wěn)了大數(shù)據(jù)存儲王者的寶座。

在這里我們就先不說 Hdfs 的架構(gòu)如何，依舊是從上面說到的大數(shù)據(jù)存儲的三個指標(biāo)速度，容量，容錯性這幾個方面來看 Hdfs。

速度：速度方面的優(yōu)勢源于 Hdfs 合理的設(shè)計理念。它默認(rèn)用到 Hdfs 處理的是大的數(shù)據(jù)(TB,PB 級的數(shù)據(jù))，并且摒棄了傳統(tǒng)文件系統(tǒng)中的 Update 操作，只有 Append 操作。在這個基礎(chǔ)上，Hdfs 將一個文件分割成若干個塊(Block)，每個塊分布在不同的機(jī)器中。。和 RAID 利用多個磁盤并發(fā) IO 提高速度一樣，每次操作一個文件的時候，實際上是多個機(jī)器在并發(fā)讀取，這樣無疑是進(jìn)一步提高讀取速度。

容量：容量這個問題自不必說，理論上是可以無限制得擴(kuò)容。但實際上由于它的元數(shù)據(jù)存儲在一臺 namenode 中，所以它的大小還是會收到元數(shù)據(jù)存儲的這個限制。不過在 Hadoop2.0 后，在機(jī)器條件允許的情況下，一個 Hdfs 支撐起 PB 級別的存儲還是綽綽有余的。

容錯性：在容錯性這個方面，從以前到現(xiàn)在基本都是通過數(shù)據(jù)冗余來實現(xiàn)的。只不過數(shù)據(jù)冗余的一些策略會根據(jù)不同的應(yīng)用場景而做出一些改變。由于 Hadoop 本身就是假設(shè)部署在多臺廉價機(jī)器上，所以它會傾向于將存儲數(shù)據(jù)的節(jié)點當(dāng)作不可靠的節(jié)點。出于這個因素，Hdfs 的默認(rèn)冗余備份數(shù)是 3份，就是說當(dāng)你向 Hdfs 寫入一份數(shù)據(jù)的時候，同時會在其他三臺機(jī)器上也寫入相同的內(nèi)容。

我們可以發(fā)現(xiàn)，其實 Hdfs 和 RAID 在思想上是有一些相似之處的。都是通過水平拓展，比如 RAID 水平拓展磁盤，Hdfs 則是水平拓展機(jī)器。

鐵打的營盤流水的兵。數(shù)據(jù)就是那些兵，大數(shù)據(jù)計算框架，比如 Spark，Hive 是將軍。而營盤就是 Hdfs 了。兵進(jìn)進(jìn)出出，將軍換了一個又一個，唯獨營盤不會變， Hdfs 無疑是大數(shù)據(jù)體系中最基礎(chǔ)也是最重要的那一環(huán)。

這里給出一個有意思的問題：當(dāng)下一次互聯(lián)網(wǎng)革命到來，數(shù)據(jù)又呈指數(shù)增長的時候，數(shù)據(jù)存儲的模式會怎樣演化呢?會是簡單的增加集群嗎，比方說讓多個 hdfs 集群相互連通?歡迎在評論中寫下你的思考。

阅读全文

閱讀全文

RAID(34861) RAID(34861)
磁盤(24856) 磁盤(24856)
Hadoop(15812) Hadoop(15812)
大數(shù)據(jù)(136505) 大數(shù)據(jù)(136505)

大數(shù)據(jù)分析中Spark，Hadoop，Hive框架該用哪種開源分布式系統(tǒng)

眾所周知，大數(shù)據(jù)開發(fā)和分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中，都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個框架了。最近不少朋友有問到關(guān)于這些的問題：大廠里還有在用

2020-09-17 13:17:00

4018

正在加载...

搜索歷史

大數(shù)據(jù)存儲的演變的過程 Hadoop Hdfs出現(xiàn)原因分析

評論