0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

eBay利用Hadoop建立了一個(gè)大規(guī)模的集群系統(tǒng)—Athena

倩倩 ? 來源:IT168 ? 2020-03-20 11:03 ? 次閱讀

在eBay上存儲(chǔ)著上億種商品信息,而且每天有數(shù)百萬種的新商品增加,因此需要用云系統(tǒng)來存儲(chǔ)和處理PB級(jí)別的數(shù)據(jù),而Hadoop則是個(gè)很好的選擇。

Hadoop是建立在商業(yè)硬件上的容錯(cuò)、可擴(kuò)展、分布式的云計(jì)算框架,eBay利用Hadoop建立了一個(gè)大規(guī)模的集群系統(tǒng)—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:

1)Hadoop核心層,包括Hadoop運(yùn)行時(shí)環(huán)境、一些通用設(shè)施和HDFS,其中文件系統(tǒng)為讀寫大塊數(shù)據(jù)而做了一些優(yōu)化,如將塊的大小由128MB改為256MB。

2)MapReduce層,為開發(fā)和執(zhí)行任務(wù)提供API和控件。

3)數(shù)據(jù)獲取層,現(xiàn)在數(shù)據(jù)獲取層的主要框架是HBase、Pig和Hive:

·HBase是根據(jù)Google BigTable開發(fā)的按列存儲(chǔ)的多維空間數(shù)據(jù)庫,通過維護(hù)數(shù)據(jù)的劃分和范圍提供有序的數(shù)據(jù),其數(shù)據(jù)儲(chǔ)存在HDFS上。

·Pig(Latin)是提供加載、篩選、轉(zhuǎn)換、提取、聚集、連接、分組等操作的面向過程的語言,開發(fā)者使用Pig建立數(shù)據(jù)管道和數(shù)據(jù)工廠。

·Hive是用于建立數(shù)據(jù)倉庫的使用SQL語法的聲明性語言。對(duì)于開發(fā)者、產(chǎn)品經(jīng)理和分析師來說,SQL接口使得Hive成為很好的選擇。

4)工具和加載庫層,UC4是eBay從多個(gè)數(shù)據(jù)源自動(dòng)加載數(shù)據(jù)的企業(yè)級(jí)調(diào)度程序。加載庫有:統(tǒng)計(jì)庫(R)、機(jī)器學(xué)習(xí)庫(Mahout)、數(shù)學(xué)相關(guān)庫(Hama)和eBay自己開發(fā)的用于解析網(wǎng)絡(luò)日志的庫(Mobius)。

5)監(jiān)視和警告層,Ganglia是分布式集群的監(jiān)視系統(tǒng),Nagios則用來警告一些關(guān)鍵事件如服務(wù)器不可達(dá)、硬盤已滿等。

eBay的企業(yè)服務(wù)器運(yùn)行著64位的RedHat Linux

·NameNode負(fù)責(zé)管理HDFS的主服務(wù)器;

·JobTracker負(fù)責(zé)任務(wù)的協(xié)調(diào);

·HBaseMaster負(fù)責(zé)存儲(chǔ)HBase存儲(chǔ)的根信息,并且方便與數(shù)據(jù)塊或存取區(qū)域進(jìn)行協(xié)調(diào);

·ZooKeeper是保證HBase一致性的分布式鎖協(xié)調(diào)器。

用于存儲(chǔ)和計(jì)算的節(jié)點(diǎn)是1U大小的運(yùn)行Cent OS的機(jī)器,每臺(tái)機(jī)器擁有2個(gè)四核處理器和2TB大小的存儲(chǔ)空間,每38~42個(gè)節(jié)點(diǎn)單元為一個(gè)rack,這組建成了高密度網(wǎng)格。有關(guān)網(wǎng)絡(luò)方面,頂層rack交換機(jī)到節(jié)點(diǎn)的帶寬為1Gbps,rack交換機(jī)到核心交換機(jī)的帶寬為40Gpbs。

這個(gè)集群是eBay內(nèi)多個(gè)團(tuán)隊(duì)共同使用的,包括產(chǎn)品和一次性任務(wù)。這里使用Hadoop公平調(diào)度器(Fair Scheduler)來管理分配、定義團(tuán)隊(duì)的任務(wù)池、分配權(quán)限、限制每個(gè)用戶和組的并行任務(wù)、設(shè)置優(yōu)先權(quán)期限和延遲調(diào)度。

▲數(shù)據(jù)流

數(shù)據(jù)流的具體處理過程如上圖所示,系統(tǒng)每天需要處理8TB至10TB的新數(shù)據(jù),而Hadoop主要用于:

·基于機(jī)器學(xué)習(xí)的排序,使用Hadoop計(jì)算需要考慮多個(gè)因素(如價(jià)格、列表格式、賣家記錄、相關(guān)性)的排序函數(shù),并需要添加新因素來驗(yàn)證假設(shè)的擴(kuò)展功能,以增強(qiáng)eBay物品搜索的相關(guān)性。

·對(duì)物品描述數(shù)據(jù)的挖掘,在完全無人監(jiān)管的方式下使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)將物品描述清單轉(zhuǎn)化為與物品相關(guān)的鍵/值對(duì),以擴(kuò)大分類的覆蓋范圍。

·eBay的研究人員在系統(tǒng)構(gòu)建和使用過程中遇到的挑戰(zhàn)及一些初步計(jì)劃有以下幾個(gè)方面:

·可擴(kuò)展性,當(dāng)前主系統(tǒng)的NameNode擁有擴(kuò)展的功能,隨著集群的文件系統(tǒng)不斷增長,需要存儲(chǔ)大量的元數(shù)據(jù),所以內(nèi)存占有量也在不斷增長。若是1PB的存儲(chǔ)量則需要將近1GB的內(nèi)存量,可能的解決方案是使用等級(jí)結(jié)構(gòu)的命名空間劃分,或者使用HBase和ZooKeeper聯(lián)合對(duì)元數(shù)據(jù)進(jìn)行管理。

·有效性,NameNode的有效性對(duì)產(chǎn)品的工作負(fù)載很重要,開源社區(qū)提出了一些備用選擇,如使用檢查點(diǎn)和備份節(jié)點(diǎn)、從Secondary NameNode中轉(zhuǎn)移到Avatar節(jié)點(diǎn)、日志元數(shù)據(jù)復(fù)制技術(shù)等。eBay研究人員根據(jù)這些方法建立了自己的產(chǎn)品集群。

·數(shù)據(jù)挖掘,在存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)上建立支持?jǐn)?shù)據(jù)管理、數(shù)據(jù)挖掘和模式管理的系統(tǒng)。新的計(jì)劃提議將Hive的元數(shù)據(jù)和Owl添加到新系統(tǒng)中,并稱為Howl。eBay研究人員努力將這個(gè)系統(tǒng)聯(lián)系到分析平臺(tái)上去,這樣用戶可以很容易地在不同的數(shù)據(jù)系統(tǒng)中挖掘數(shù)據(jù)。

·數(shù)據(jù)移動(dòng),eBay研究人員考慮發(fā)布數(shù)據(jù)轉(zhuǎn)移工具,這個(gè)工具可以支持在不同的子系統(tǒng)如數(shù)據(jù)倉庫和HDFS之間進(jìn)行數(shù)據(jù)的復(fù)制。

·策略,通過配額實(shí)現(xiàn)較好的歸檔、備份等策略(Hadoop現(xiàn)有版本的配額需要改進(jìn))。eBay的研究人員基于工作負(fù)載和集群的特點(diǎn)對(duì)不同的集群確定配額。

·標(biāo)準(zhǔn),eBay研究人員開發(fā)健壯的工具來為數(shù)據(jù)來源、消耗情況、預(yù)算情況、使用情況等進(jìn)行度量。

同時(shí)eBay正在改變收集、轉(zhuǎn)換、使用數(shù)據(jù)的方式,以提供更好的商業(yè)智能服務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7113

    瀏覽量

    89304
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8429

    瀏覽量

    132852
  • Hadoop
    +關(guān)注

    關(guān)注

    1

    文章

    90

    瀏覽量

    15995
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用EMBark進(jìn)行大規(guī)模推薦系統(tǒng)訓(xùn)練Embedding加速

    推薦系統(tǒng)是互聯(lián)網(wǎng)行業(yè)的核心系統(tǒng),如何高效訓(xùn)練推薦系統(tǒng)是各公司關(guān)注的核心問題。目前,推薦系統(tǒng)基本上都是基于深度學(xué)習(xí)的大規(guī)模 ID 類模型,模型
    的頭像 發(fā)表于 10-31 14:46 ?227次閱讀
    使用EMBark進(jìn)行<b class='flag-5'>大規(guī)模</b>推薦<b class='flag-5'>系統(tǒng)</b>訓(xùn)練Embedding加速

    FPGA仿真黑科技\"EasyGo Vs Addon \",助力大規(guī)模電力電子系統(tǒng)仿真

    ,可以搭建多電機(jī)系統(tǒng)、電力電子系統(tǒng)等包含開關(guān)器件的系統(tǒng)模型。依托強(qiáng)大的FPGA資源,最大可仿真240個(gè)關(guān)鍵元件的電力電子系統(tǒng),使得更
    發(fā)表于 10-23 18:18

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    背景 Hadoop個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),它允許用戶在不需要深入了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoo
    的頭像 發(fā)表于 10-08 15:12 ?177次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b>大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值<b class='flag-5'>利用</b>效能

    中國移動(dòng)智算中心(哈爾濱)成為最大單集群智算中心

    9月6日最新資訊,中國移動(dòng)智算中心(哈爾濱)正式宣告投入運(yùn)營,這里程碑事件不僅標(biāo)志著中國移動(dòng)在智能計(jì)算領(lǐng)域的又重大突破,更確立了其在全球運(yùn)營商中擁有最大規(guī)模
    的頭像 發(fā)表于 09-06 15:33 ?898次閱讀

    中國電信上海、北京兩個(gè)萬卡集群已經(jīng)投產(chǎn)

    中國電信在智算領(lǐng)域的發(fā)展迎來重要里程碑。近日,中國電信宣布,其上海、北京兩個(gè)萬卡智算集群已正式投產(chǎn)運(yùn)行,標(biāo)志著中國電信在構(gòu)建大規(guī)模智算能力方面取得了顯著進(jìn)展。
    的頭像 發(fā)表于 08-09 17:47 ?781次閱讀

    燧原科技與清程極智攜手共創(chuàng)AI未來:共筑超大規(guī)模智算集群新篇章

    協(xié)議,雙方將攜手步入全新的合作階段,共同探索并開發(fā)面向超萬億參數(shù)大模型和超大規(guī)模集群的高性能系統(tǒng)軟件方案,標(biāo)志著雙方在推動(dòng)AI技術(shù)邊界、加速產(chǎn)業(yè)智能化進(jìn)程上邁出了堅(jiān)實(shí)的步。
    的頭像 發(fā)表于 07-05 14:50 ?834次閱讀

    基于FPGA的類腦計(jì)算平臺(tái) —PYNQ 集群的無監(jiān)督圖像識(shí)別類腦計(jì)算系統(tǒng)

    存為128GB DDR3。 5.ARM:ARM A9處理器主頻為667MHz,2個(gè)核心,內(nèi)存為1GB DDR3。 6.FPGA集群系統(tǒng):FPGA集群包含8個(gè)Xilinx ZYNQ 70
    發(fā)表于 06-25 18:35

    高性能計(jì)算集群的能耗優(yōu)化

    高性能計(jì)算(HighPerformanceComputing,HPC)是指利用大規(guī)模并行計(jì)算機(jī)集群來解決復(fù)雜的科學(xué)和工程問題的技術(shù)。高性能計(jì)算集群的應(yīng)用領(lǐng)域非常廣泛,包括天氣預(yù)報(bào)、生物
    的頭像 發(fā)表于 05-25 08:27 ?471次閱讀
    高性能計(jì)算<b class='flag-5'>集群</b>的能耗優(yōu)化

    北京:規(guī)劃建設(shè)支撐萬億級(jí)參數(shù)大模型訓(xùn)練需求的超大規(guī)模智算集群

    ”局面,集中建設(shè)批智算單一大集群,到2025年,本市智算供給規(guī)模達(dá)到45EFLOPS,2025-2027年根據(jù)人工智能大模型發(fā)展需要和國家相關(guān)部署進(jìn)步優(yōu)化算力布局
    的頭像 發(fā)表于 04-29 08:26 ?342次閱讀
    北京:規(guī)劃建設(shè)支撐萬億級(jí)參數(shù)大模型訓(xùn)練需求的超<b class='flag-5'>大規(guī)模</b>智算<b class='flag-5'>集群</b>

    專用集成電路都是大規(guī)模的嗎為什么呢

    的集成度和性能優(yōu)勢。然而,并非所有專用集成電路都是大規(guī)模的,因?yàn)榧啥鹊拇笮∪Q于設(shè)計(jì)和制造的要求。 在探討專用集成電路是否大規(guī)模之前,我們首先需要了解什么是大規(guī)模集成電路(Very Large Scale Integratio
    的頭像 發(fā)表于 04-21 09:15 ?556次閱讀

    名單公布!【書籍評(píng)測活動(dòng)NO.30】大規(guī)模語言模型:從理論到實(shí)踐

    ,在大模型實(shí)踐和理論研究的過程中,歷時(shí)8個(gè)月完成 《大規(guī)模語言模型:從理論到實(shí)踐》 書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應(yīng)用,并解決相關(guān)技術(shù)問題。 本書經(jīng)上市,
    發(fā)表于 03-11 15:16

    大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)的七大主流趨勢

    自動(dòng)駕駛已經(jīng)變成可能,大規(guī)模應(yīng)用只是一個(gè)時(shí)間問題。大規(guī)模網(wǎng)絡(luò)運(yùn)維的自動(dòng)化也必然是業(yè)界的趨勢,要達(dá)到自動(dòng)駕駛或自動(dòng)化運(yùn)維都需要兩個(gè)共同的條件:
    發(fā)表于 03-11 11:21 ?518次閱讀

    中國電信規(guī)劃在上海建設(shè)首個(gè)國產(chǎn)超大規(guī)模算力液冷集群

    中國電信規(guī)劃建設(shè)首個(gè)國產(chǎn)超大規(guī)模算力液冷集群 人工智能技術(shù)的快速發(fā)展催生了巨大的算力需求;中國電信規(guī)劃在上海規(guī)劃建設(shè)可支持萬億參數(shù)大模型訓(xùn)練的智算集群中心。其中會(huì)搭載液冷技術(shù),單池新建國產(chǎn)算力達(dá)10000卡,也是首個(gè)支持單池萬卡
    的頭像 發(fā)表于 02-22 18:48 ?1350次閱讀

    Hadoop是什么?其核心由兩大部分組成,分別是什么?

    Hadoop個(gè)開源的分布式計(jì)算框架,它可以處理大規(guī)模數(shù)據(jù)集并能夠在通常由計(jì)算機(jī)集群或者計(jì)算機(jī)網(wǎng)絡(luò)上的數(shù)千臺(tái)計(jì)算機(jī)上并行運(yùn)行。
    的頭像 發(fā)表于 02-05 10:52 ?1941次閱讀

    大規(guī)模儲(chǔ)能-堿性水系鈉離子電池開發(fā)

    當(dāng)前,對(duì)大規(guī)模儲(chǔ)能的需求不斷增長,推動(dòng)了具有安全性、環(huán)保性和低成本的電池系統(tǒng)的開發(fā)。
    的頭像 發(fā)表于 01-24 09:29 ?1327次閱讀
    <b class='flag-5'>大規(guī)模</b>儲(chǔ)能-堿性水系鈉離子電池開發(fā)