欧美曰批精品黄色视频,国产AⅤ无码专区亚洲AⅤ麻豆丫,国产精品大陆在小视频

在eBay上存儲著上億種商品的信息，而且每天有數(shù)百萬種的新商品增加，因此需要用云系統(tǒng)來存儲和處理PB級別的數(shù)據(jù)，而Hadoop則是個很好的選擇。

Hadoop是建立在商業(yè)硬件上的容錯、可擴展、分布式的云計算框架，eBay利用Hadoop建立了一個大規(guī)模的集群系統(tǒng)—Athena，它被分為五層（如下圖所示），下面從最底層向上開始介紹：

1）Hadoop核心層，包括Hadoop運行時環(huán)境、一些通用設施和HDFS，其中文件系統(tǒng)為讀寫大塊數(shù)據(jù)而做了一些優(yōu)化，如將塊的大小由128MB改為256MB。

2）MapReduce層，為開發(fā)和執(zhí)行任務提供API和控件。

3）數(shù)據(jù)獲取層，現(xiàn)在數(shù)據(jù)獲取層的主要框架是HBase、Pig和Hive：

·HBase是根據(jù)Google BigTable開發(fā)的按列存儲的多維空間數(shù)據(jù)庫，通過維護數(shù)據(jù)的劃分和范圍提供有序的數(shù)據(jù)，其數(shù)據(jù)儲存在HDFS上。

·Pig（Latin）是提供加載、篩選、轉換、提取、聚集、連接、分組等操作的面向過程的語言，開發(fā)者使用Pig建立數(shù)據(jù)管道和數(shù)據(jù)工廠。

·Hive是用于建立數(shù)據(jù)倉庫的使用SQL語法的聲明性語言。對于開發(fā)者、產品經理和分析師來說，SQL接口使得Hive成為很好的選擇。

4）工具和加載庫層，UC4是eBay從多個數(shù)據(jù)源自動加載數(shù)據(jù)的企業(yè)級調度程序。加載庫有：統(tǒng)計庫（R）、機器學習庫（Mahout）、數(shù)學相關庫（Hama）和eBay自己開發(fā)的用于解析網絡日志的庫（Mobius）。

5）監(jiān)視和警告層，Ganglia是分布式集群的監(jiān)視系統(tǒng)，Nagios則用來警告一些關鍵事件如服務器不可達、硬盤已滿等。

eBay的企業(yè)服務器運行著64位的RedHat Linux：

·NameNode負責管理HDFS的主服務器;

·JobTracker負責任務的協(xié)調;

·HBaseMaster負責存儲HBase存儲的根信息，并且方便與數(shù)據(jù)塊或存取區(qū)域進行協(xié)調;

·ZooKeeper是保證HBase一致性的分布式鎖協(xié)調器。

用于存儲和計算的節(jié)點是1U大小的運行Cent OS的機器，每臺機器擁有2個四核處理器和2TB大小的存儲空間，每38～42個節(jié)點單元為一個rack，這組建成了高密度網格。有關網絡方面，頂層rack交換機到節(jié)點的帶寬為1Gbps，rack交換機到核心交換機的帶寬為40Gpbs。

這個集群是eBay內多個團隊共同使用的，包括產品和一次性任務。這里使用Hadoop公平調度器（Fair Scheduler）來管理分配、定義團隊的任務池、分配權限、限制每個用戶和組的并行任務、設置優(yōu)先權期限和延遲調度。

▲數(shù)據(jù)流

數(shù)據(jù)流的具體處理過程如上圖所示，系統(tǒng)每天需要處理8TB至10TB的新數(shù)據(jù)，而Hadoop主要用于：

·基于機器學習的排序，使用Hadoop計算需要考慮多個因素（如價格、列表格式、賣家記錄、相關性）的排序函數(shù)，并需要添加新因素來驗證假設的擴展功能，以增強eBay物品搜索的相關性。

·對物品描述數(shù)據(jù)的挖掘，在完全無人監(jiān)管的方式下使用數(shù)據(jù)挖掘和機器學習技術將物品描述清單轉化為與物品相關的鍵/值對，以擴大分類的覆蓋范圍。

·eBay的研究人員在系統(tǒng)構建和使用過程中遇到的挑戰(zhàn)及一些初步計劃有以下幾個方面：

·可擴展性，當前主系統(tǒng)的NameNode擁有擴展的功能，隨著集群的文件系統(tǒng)不斷增長，需要存儲大量的元數(shù)據(jù)，所以內存占有量也在不斷增長。若是1PB的存儲量則需要將近1GB的內存量，可能的解決方案是使用等級結構的命名空間劃分，或者使用HBase和ZooKeeper聯(lián)合對元數(shù)據(jù)進行管理。

·有效性，NameNode的有效性對產品的工作負載很重要，開源社區(qū)提出了一些備用選擇，如使用檢查點和備份節(jié)點、從Secondary NameNode中轉移到Avatar節(jié)點、日志元數(shù)據(jù)復制技術等。eBay研究人員根據(jù)這些方法建立了自己的產品集群。

·數(shù)據(jù)挖掘，在存儲非結構化數(shù)據(jù)的系統(tǒng)上建立支持數(shù)據(jù)管理、數(shù)據(jù)挖掘和模式管理的系統(tǒng)。新的計劃提議將Hive的元數(shù)據(jù)和Owl添加到新系統(tǒng)中，并稱為Howl。eBay研究人員努力將這個系統(tǒng)聯(lián)系到分析平臺上去，這樣用戶可以很容易地在不同的數(shù)據(jù)系統(tǒng)中挖掘數(shù)據(jù)。

·數(shù)據(jù)移動，eBay研究人員考慮發(fā)布數(shù)據(jù)轉移工具，這個工具可以支持在不同的子系統(tǒng)如數(shù)據(jù)倉庫和HDFS之間進行數(shù)據(jù)的復制。

·策略，通過配額實現(xiàn)較好的歸檔、備份等策略（Hadoop現(xiàn)有版本的配額需要改進）。eBay的研究人員基于工作負載和集群的特點對不同的集群確定配額。

·標準，eBay研究人員開發(fā)健壯的工具來為數(shù)據(jù)來源、消耗情況、預算情況、使用情況等進行度量。

同時eBay正在改變收集、轉換、使用數(shù)據(jù)的方式，以提供更好的商業(yè)智能服務。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴