0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena

倩倩 ? 來源:IT168 ? 2020-03-20 11:03 ? 次閱讀

在eBay上存儲著上億種商品的信息,而且每天有數(shù)百萬種的新商品增加,因此需要用云系統(tǒng)來存儲和處理PB級別的數(shù)據(jù),而Hadoop則是個很好的選擇。

Hadoop是建立在商業(yè)硬件上的容錯、可擴展、分布式的云計算框架,eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena,它被分為五層(如下圖所示),下面從最底層向上開始介紹:

1)Hadoop核心層,包括Hadoop運行時環(huán)境、一些通用設施和HDFS,其中文件系統(tǒng)為讀寫大塊數(shù)據(jù)而做了一些優(yōu)化,如將塊的大小由128MB改為256MB。

2)MapReduce層,為開發(fā)和執(zhí)行任務提供API和控件。

3)數(shù)據(jù)獲取層,現(xiàn)在數(shù)據(jù)獲取層的主要框架是HBase、Pig和Hive:

·HBase是根據(jù)Google BigTable開發(fā)的按列存儲的多維空間數(shù)據(jù)庫,通過維護數(shù)據(jù)的劃分和范圍提供有序的數(shù)據(jù),其數(shù)據(jù)儲存在HDFS上。

·Pig(Latin)是提供加載、篩選、轉換、提取、聚集、連接、分組等操作的面向過程的語言,開發(fā)者使用Pig建立數(shù)據(jù)管道和數(shù)據(jù)工廠。

·Hive是用于建立數(shù)據(jù)倉庫的使用SQL語法的聲明性語言。對于開發(fā)者、產品經理和分析師來說,SQL接口使得Hive成為很好的選擇。

4)工具和加載庫層,UC4是eBay從多個數(shù)據(jù)源自動加載數(shù)據(jù)的企業(yè)級調度程序。加載庫有:統(tǒng)計庫(R)、機器學習庫(Mahout)、數(shù)學相關庫(Hama)和eBay自己開發(fā)的用于解析網絡日志的庫(Mobius)。

5)監(jiān)視和警告層,Ganglia是分布式集群的監(jiān)視系統(tǒng),Nagios則用來警告一些關鍵事件如服務器不可達、硬盤已滿等。

eBay的企業(yè)服務器運行著64位的RedHat Linux

·NameNode負責管理HDFS的主服務器;

·JobTracker負責任務的協(xié)調;

·HBaseMaster負責存儲HBase存儲的根信息,并且方便與數(shù)據(jù)塊或存取區(qū)域進行協(xié)調;

·ZooKeeper是保證HBase一致性的分布式鎖協(xié)調器。

用于存儲和計算的節(jié)點是1U大小的運行Cent OS的機器,每臺機器擁有2個四核處理器和2TB大小的存儲空間,每38~42個節(jié)點單元為一個rack,這組建成了高密度網格。有關網絡方面,頂層rack交換機到節(jié)點的帶寬為1Gbps,rack交換機到核心交換機的帶寬為40Gpbs。

這個集群是eBay內多個團隊共同使用的,包括產品和一次性任務。這里使用Hadoop公平調度器(Fair Scheduler)來管理分配、定義團隊的任務池、分配權限、限制每個用戶和組的并行任務、設置優(yōu)先權期限和延遲調度。

▲數(shù)據(jù)流

數(shù)據(jù)流的具體處理過程如上圖所示,系統(tǒng)每天需要處理8TB至10TB的新數(shù)據(jù),而Hadoop主要用于:

·基于機器學習的排序,使用Hadoop計算需要考慮多個因素(如價格、列表格式、賣家記錄、相關性)的排序函數(shù),并需要添加新因素來驗證假設的擴展功能,以增強eBay物品搜索的相關性。

·對物品描述數(shù)據(jù)的挖掘,在完全無人監(jiān)管的方式下使用數(shù)據(jù)挖掘和機器學習技術將物品描述清單轉化為與物品相關的鍵/值對,以擴大分類的覆蓋范圍。

·eBay的研究人員在系統(tǒng)構建和使用過程中遇到的挑戰(zhàn)及一些初步計劃有以下幾個方面:

·可擴展性,當前主系統(tǒng)的NameNode擁有擴展的功能,隨著集群的文件系統(tǒng)不斷增長,需要存儲大量的元數(shù)據(jù),所以內存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內存量,可能的解決方案是使用等級結構的命名空間劃分,或者使用HBase和ZooKeeper聯(lián)合對元數(shù)據(jù)進行管理。

·有效性,NameNode的有效性對產品的工作負載很重要,開源社區(qū)提出了一些備用選擇,如使用檢查點和備份節(jié)點、從Secondary NameNode中轉移到Avatar節(jié)點、日志元數(shù)據(jù)復制技術等。eBay研究人員根據(jù)這些方法建立了自己的產品集群。

·數(shù)據(jù)挖掘,在存儲非結構化數(shù)據(jù)的系統(tǒng)上建立支持數(shù)據(jù)管理、數(shù)據(jù)挖掘和模式管理的系統(tǒng)。新的計劃提議將Hive的元數(shù)據(jù)和Owl添加到新系統(tǒng)中,并稱為Howl。eBay研究人員努力將這個系統(tǒng)聯(lián)系到分析平臺上去,這樣用戶可以很容易地在不同的數(shù)據(jù)系統(tǒng)中挖掘數(shù)據(jù)。

·數(shù)據(jù)移動,eBay研究人員考慮發(fā)布數(shù)據(jù)轉移工具,這個工具可以支持在不同的子系統(tǒng)如數(shù)據(jù)倉庫和HDFS之間進行數(shù)據(jù)的復制。

·策略,通過配額實現(xiàn)較好的歸檔、備份等策略(Hadoop現(xiàn)有版本的配額需要改進)。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。

·標準,eBay研究人員開發(fā)健壯的工具來為數(shù)據(jù)來源、消耗情況、預算情況、使用情況等進行度量。

同時eBay正在改變收集、轉換、使用數(shù)據(jù)的方式,以提供更好的商業(yè)智能服務。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7241

    瀏覽量

    91033
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134117
  • Hadoop
    +關注

    關注

    1

    文章

    90

    瀏覽量

    16356
收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    北京東六環(huán)“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信系統(tǒng)

    FM調頻廣播應急系統(tǒng)、350M公安消防集群系統(tǒng)、400M調度對講系統(tǒng)、800M政務集群系統(tǒng)
    的頭像 發(fā)表于 05-12 14:31 ?534次閱讀
    北京東六環(huán)“煥新” 帶來城市空間新體驗→“集遠通信隧道無線通信<b class='flag-5'>系統(tǒng)</b>”

    解鎖樹莓派集群步步打造你的超級計算陣列!

    數(shù)據(jù)處理和云原生計算學習等多種任務。什么是樹莓派集群?在樹莓派集群中,每臺樹莓派都充當集群中的節(jié)點,貢獻處理能力和內存以分擔工作負載。這
    的頭像 發(fā)表于 04-25 16:17 ?416次閱讀
    解鎖樹莓派<b class='flag-5'>集群</b>:<b class='flag-5'>一</b>步步打造你的超級計算陣列!

    谷歌新代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?

    Cloud 客戶開放,將提供 256 芯片集群以及 9,216 芯片集群兩種配置選項。 ? 在核心亮點層面,Ironwood 堪稱谷歌首款專門為 AI 推理精心設計的 TPU 芯片,能夠有力支持大規(guī)模思考
    的頭像 發(fā)表于 04-12 00:57 ?2101次閱讀

    5G 大規(guī)模物聯(lián)網系統(tǒng)級封裝 skyworksinc

    電子發(fā)燒友網為你提供()5G 大規(guī)模物聯(lián)網系統(tǒng)級封裝相關產品參數(shù)、數(shù)據(jù)手冊,更有5G 大規(guī)模物聯(lián)網系統(tǒng)級封裝的引腳圖、接線圖、封裝手冊、中文資料、英文資料,5G
    發(fā)表于 04-11 15:21
    5G <b class='flag-5'>大規(guī)模</b>物聯(lián)網<b class='flag-5'>系統(tǒng)</b>級封裝 skyworksinc

    大規(guī)模硬件仿真系統(tǒng)的編譯挑戰(zhàn)

    大規(guī)模集成電路設計的重要工具。然而,隨著設計規(guī)模的擴大和復雜度的增加,硬件仿真系統(tǒng)的編譯過程面臨著諸多挑戰(zhàn)。本文旨在探討基于FPGA的硬件仿真系統(tǒng)在編譯過程中所遇到的關
    的頭像 發(fā)表于 03-31 16:11 ?758次閱讀
    <b class='flag-5'>大規(guī)模</b>硬件仿真<b class='flag-5'>系統(tǒng)</b>的編譯挑戰(zhàn)

    DeepSeek推動AI算力需求:800G光模塊的關鍵作用

    集群中的帶寬瓶頸 DeepSeek的大規(guī)模訓練任務涉及數(shù)千甚至數(shù)萬的GPU節(jié)點,通過高效的網絡連接協(xié)調計算。傳統(tǒng)的光模塊,如400G模塊,雖然能提供定的帶寬,但在面對大規(guī)模并行計算
    發(fā)表于 03-25 12:00

    Hadoop 生態(tài)系統(tǒng)在大數(shù)據(jù)處理中的應用與實踐

    基礎。它將大文件分割成多個數(shù)據(jù)塊,存儲在不同節(jié)點上,實現(xiàn)高容錯性和高擴展性。NameNode 負責管理文件系統(tǒng)命名空間和元數(shù)據(jù),DataNode 負責實際數(shù)據(jù)存儲。上傳文件時,HDFS 自動將文件切塊并分配到不同 DataNode,確保數(shù)據(jù)可靠性。 MapReduce 是分布式計算模型,用于
    的頭像 發(fā)表于 01-21 17:48 ?368次閱讀

    eBay攜手螞蟻國際旗下Antom,支付寶成eBay新支付選項

    進行支付,享受無縫、本地化的支付服務。這不僅提升了消費者的購物體驗,也為eBay平臺上的商家?guī)砹烁酀撛诘闹袊鴥鹊叵M者。 螞蟻國際Antom總經理劉正表示:“我們直致力于通過開放合作和持續(xù)創(chuàng)新,為商戶連接更多市場和消費者,實現(xiàn)更大
    的頭像 發(fā)表于 11-11 13:56 ?1064次閱讀

    使用EMBark進行大規(guī)模推薦系統(tǒng)訓練Embedding加速

    推薦系統(tǒng)是互聯(lián)網行業(yè)的核心系統(tǒng),如何高效訓練推薦系統(tǒng)是各公司關注的核心問題。目前,推薦系統(tǒng)基本上都是基于深度學習的大規(guī)模 ID 類模型,模型
    的頭像 發(fā)表于 10-31 14:46 ?635次閱讀
    使用EMBark進行<b class='flag-5'>大規(guī)模</b>推薦<b class='flag-5'>系統(tǒng)</b>訓練Embedding加速

    FPGA仿真黑科技\"EasyGo Vs Addon \",助力大規(guī)模電力電子系統(tǒng)仿真

    ,可以搭建多電機系統(tǒng)、電力電子系統(tǒng)等包含開關器件的系統(tǒng)模型。依托強大的FPGA資源,最大可仿真240關鍵元件的電力電子系統(tǒng),使得更
    發(fā)表于 10-23 18:18

    基于Kepware的Hadoop大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值利用效能

    背景 Hadoop由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構,它允許用戶在不需要深入了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。Hadoo
    的頭像 發(fā)表于 10-08 15:12 ?320次閱讀
    基于Kepware的<b class='flag-5'>Hadoop</b>大數(shù)據(jù)應用構建-提升數(shù)據(jù)價值<b class='flag-5'>利用</b>效能

    中國移動智算中心(哈爾濱)成為最大單集群智算中心

    9月6日最新資訊,中國移動智算中心(哈爾濱)正式宣告投入運營,這里程碑事件不僅標志著中國移動在智能計算領域的又重大突破,更確立了其在全球運營商中擁有最大規(guī)模
    的頭像 發(fā)表于 09-06 15:33 ?1203次閱讀

    中國電信上海、北京兩萬卡集群已經投產

    中國電信在智算領域的發(fā)展迎來重要里程碑。近日,中國電信宣布,其上海、北京兩萬卡智算集群已正式投產運行,標志著中國電信在構建大規(guī)模智算能力方面取得了顯著進展。
    的頭像 發(fā)表于 08-09 17:47 ?1123次閱讀

    燧原科技與清程極智攜手共創(chuàng)AI未來:共筑超大規(guī)模智算集群新篇章

    協(xié)議,雙方將攜手步入全新的合作階段,共同探索并開發(fā)面向超萬億參數(shù)大模型和超大規(guī)模集群的高性能系統(tǒng)軟件方案,標志著雙方在推動AI技術邊界、加速產業(yè)智能化進程上邁出了堅實的步。
    的頭像 發(fā)表于 07-05 14:50 ?1220次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的無監(jiān)督圖像識別類腦計算系統(tǒng)

    存為128GB DDR3。 5.ARM:ARM A9處理器主頻為667MHz,2核心,內存為1GB DDR3。 6.FPGA集群系統(tǒng):FPGA集群包含8Xilinx ZYNQ 70
    發(fā)表于 06-25 18:35

    電子發(fā)燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品