電子發(fā)燒友網(wǎng)>今日頭條>調(diào)度、模型、同步與任務(wù)——阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化方案

調(diào)度、模型、同步與任務(wù)——阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化方案

摘要：?對于阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化而言，主要可以從調(diào)度優(yōu)化、模型優(yōu)化、同步優(yōu)化以及任務(wù)優(yōu)化這四個方面著手。其實，對于性能優(yōu)化而言，最終還是會歸結(jié)到“資源”之上，所以資源是否足夠，分配是否合理也是我們在進行性能優(yōu)化時必須考慮的關(guān)鍵所在。

摘要：對于阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化而言，主要可以從調(diào)度優(yōu)化、模型優(yōu)化、同步優(yōu)化以及任務(wù)優(yōu)化這四個方面著手。其實，對于性能優(yōu)化而言，最終還是會歸結(jié)到“資源”之上，所以資源是否足夠，分配是否合理也是我們在進行性能優(yōu)化時必須考慮的關(guān)鍵所在。

以下內(nèi)容根據(jù)演講視頻以及PPT整理而成。

本次演講視頻分享，請戳這里！
本次演講PPT下載，請戳這里！
關(guān)于MaxCompute更多精彩文章，請移步云棲社區(qū)MaxCompute公眾號！

本文將主要圍繞以下四個方面進行介紹：調(diào)度優(yōu)化、模型優(yōu)化、同步優(yōu)化以及任務(wù)優(yōu)化。對于調(diào)度優(yōu)化而言，將分享任務(wù)調(diào)度如何進行優(yōu)化，以及如何看到調(diào)度的瓶頸點，以及在初步進行建設(shè)和使用數(shù)據(jù)倉庫的任務(wù)之后，對于任務(wù)如何進行調(diào)整來滿足業(yè)務(wù)的時間要求。對于模型優(yōu)化而言，主要包括一些優(yōu)化相關(guān)的想法、建議以及技術(shù)的優(yōu)化點。對于數(shù)據(jù)同步優(yōu)化而言，也是大家在建設(shè)數(shù)據(jù)倉庫的過程中經(jīng)常遇到的問題，也就是將數(shù)據(jù)從其他數(shù)據(jù)庫同步過來或者向其他數(shù)據(jù)庫進行數(shù)據(jù)同步的時候，經(jīng)常會遇到一些像某些任務(wù)運行過慢或者影響其他任務(wù)的情況。對于任務(wù)優(yōu)化而言，主要指的是計算任務(wù)，也可以理解為MaxCompute的SQL任務(wù)，這部分將與大家分享如何去優(yōu)化這部分的任務(wù)。

一、調(diào)度優(yōu)化
在數(shù)據(jù)倉庫建設(shè)的過程中，大家都會需要跑一些任務(wù)，那么這些任務(wù)如何進行配置才會是最優(yōu)的呢？如果出現(xiàn)了瓶頸點或者業(yè)務(wù)第二天所需要的數(shù)據(jù)并沒有給到，那么很大一部分的情況需要從調(diào)度方面來考慮，是不是有些任務(wù)的時間點設(shè)置的不合理？或者是不是有些任務(wù)的優(yōu)先級設(shè)置的不合理？這些可能是在調(diào)度層面，大家需要優(yōu)先考慮的一個點。

調(diào)度優(yōu)化方式
調(diào)度優(yōu)化的主要方式如下圖所示，按照道理前三點應(yīng)該在設(shè)計初期提前想到或者提前規(guī)劃好的。而目前大部分客戶還是用了一段時間的數(shù)據(jù)倉庫的時候，才發(fā)現(xiàn)存在一些問題，當?shù)诙煨枰鰣蟊淼臅r候才想到去優(yōu)化這些點。

第一點就是對于大任務(wù)而言，需要將其預定處理的時間提前，這里的大任務(wù)也就是耗時比較長的任務(wù)，如果任務(wù)已經(jīng)在跑了，那么很好評估，在DataWorks里面可以看到哪些任務(wù)跑得慢。此外還有一個評估方法就是在第一次建立數(shù)倉的時候，表的數(shù)據(jù)量很大那么也肯定是大任務(wù)。對于這些大任務(wù)而言，需要將其定時的時間提前，也就是將其優(yōu)先級提前。第二點就是將關(guān)鍵節(jié)點的定時時間提前，這里所謂的關(guān)鍵節(jié)點并不是說其數(shù)據(jù)量大，而是業(yè)務(wù)很重要的任務(wù)。第三點就是需要做到任務(wù)的隔離，這里主要指的是在使用DataWorks的時候會用到一些調(diào)度資源，不管是運行SQL也好還是運行同步任務(wù)也好，這些任務(wù)都需要跑在DataWorks的調(diào)度資源里面，那么如果將這些任務(wù)都放在一個項目就會出現(xiàn)問題，比如某個同步任務(wù)設(shè)置了10個并發(fā)，這樣就占據(jù)了10多個調(diào)度資源，這樣就可能將資源全部占滿了，這樣就會導致其他任務(wù)需要等待，這里不是指的MaxCompute資源不夠，而是DataWorks的調(diào)度資源不夠了。因此，一方面需要將開發(fā)和生產(chǎn)隔離開，避免因為開發(fā)臨時啟動了測試任務(wù)導致生產(chǎn)環(huán)境受到影響，因此要盡量將DataWorks里面的開發(fā)項目和生產(chǎn)項目分離開。此外，如果生產(chǎn)項目也很大，可能就需要按照數(shù)倉的分層或者不同業(yè)務(wù)拆分成不同的項目，這也是避免資源出現(xiàn)搶占，避免影響其他業(yè)務(wù)的一種方式。當然，這樣的做法有利也有弊，因為這樣做會使得復雜度增加，對于企業(yè)而言，后續(xù)的運維成本也會高一些，因此這需要看大家應(yīng)該如何評估，如果數(shù)據(jù)量達到了一定的規(guī)模其實可以分拆出來的，但是如果數(shù)據(jù)量不是很大，那么就可以先不考慮分拆。第四點就是減少任務(wù)層級的依賴，大家在進行調(diào)度的時候，都會在DataWorks里面看到依賴的上一層或者下游依賴哪一些任務(wù)，而任務(wù)互相依賴的層級應(yīng)該是越少越好的，但是按照數(shù)倉分層，依賴至少需要三層，這三層依賴是肯定存在的，除此之外還會有一些中間表，這樣就會有四層或者五層，但是盡量不要出現(xiàn)10層以上甚至20層的依賴，這樣復雜的任務(wù)依賴會使得后期去排查任務(wù)的依賴成本升高。如果在數(shù)倉建設(shè)的初期或者建設(shè)的過程中發(fā)現(xiàn)了一些問題就可以從以上四個點出發(fā)進行考慮。

二、模型優(yōu)化
對于模型優(yōu)化而言，必須要按照什么方式進行設(shè)計以及模型必須是什么樣子的，其實沒有一個定性的結(jié)論。這里也只是給出一些建議和想法。

對于數(shù)倉的建模而言，其實可以分為3NF建模和維度建模等，而推薦使用維度建模方式，可以按照星型模型或者雪花型架構(gòu)的方式去建模。3NF建模方式或者實體建模方式的應(yīng)用型會差一點，在很多時候其性能也會差一點，但是3NF在很多時候都會避免數(shù)據(jù)的冗余，其擴展性會好一些。而維度建模會有一定的數(shù)據(jù)冗余，并且冗余程度會很高，但是對于上層使用者而言，其易用性要好很多，并且其查詢的性能也會好很多，雖然可擴展性會稍微差一些，但是仍然處于可接受的范圍之內(nèi)。之所以在MaxCompute這邊推薦大家使用維度建模，是因為其特點之一就是會存在數(shù)據(jù)冗余，但是數(shù)據(jù)冗余對于MaxCompute這種離線數(shù)據(jù)倉庫來說，存儲成本并不是很高，因為其都屬于SATA盤的存儲，這樣的存儲成本是很低的，而傳統(tǒng)的數(shù)據(jù)倉庫比如使用Oracle等其他的關(guān)系型數(shù)據(jù)庫構(gòu)建的數(shù)據(jù)倉庫，大家往往會選擇3NF的建模方式，這是因為其數(shù)據(jù)冗余存儲成本會很高，磁盤很貴。

總之，在MaxCompute上推薦大家使用維度建模，使用星型建模或者雪花型建模的方式，這無論對于后續(xù)的運維還是后續(xù)對于數(shù)據(jù)的使用而言，都是比較便利的，并且性能也會好一些。星型模型其實就是中間一個事實表，周邊圍繞著一堆維度表，其結(jié)構(gòu)會簡單一些，使用比較方便，性能也比較好；對于雪花模型而言，維度表可能還會繼續(xù)關(guān)聯(lián)其他的維度表，這種方式就是雪花模型，它會略微比星型模型復雜一些。其實星型模型也可以理解為較為簡單的雪花模型。這里推薦大家使用星型模型，當然如果業(yè)務(wù)非常復雜，必須要使用雪花型也可以使用。這是因為星型模型雖然有數(shù)據(jù)冗余，但是其結(jié)構(gòu)比較簡單，容易理解，而且使用起來只需要A傳給B就可以了，不需要再關(guān)聯(lián)一個C。

除了上述兩個較大的關(guān)鍵點之外，還有一些值得注意的小點，比如中間表的利用，在這部分主要是將數(shù)倉分為三層，第一層做緩沖，第二層做整合，第三層做應(yīng)用。但是并不是嚴格地只能分為三層，中間還是會有一些中間表的，如果能夠利用好中間表則會增強數(shù)倉的易用性以及整體的性能。其主要是在數(shù)倉的第二層里面，因為需要整合一些數(shù)據(jù)，但是整合之后的數(shù)據(jù)依舊是明細的，可能有幾百億甚至幾千億的量級，對于這些表而言，數(shù)據(jù)量往往很大，而且下游任務(wù)以及依賴于這個表的報表任務(wù)有很多，因此可以做一些輕度的匯總，也就是做一些公共的匯總的中間表，這樣應(yīng)用好了可以節(jié)省很多的計算量和成本的。雖然建議大家利用中間表，但是也不建議使用太多的中間表，這還是因為中間表越多，依賴的層級也會越多。

在某些情況下還需要進行拆表，比如某一個大表字段比較多，但是可能其中某兩三個字段的產(chǎn)出比較慢，產(chǎn)出很慢可能是因為其加工邏輯很復雜或者數(shù)據(jù)量比較大導致的，而其他字段產(chǎn)出卻是很快的，此時就可以將數(shù)據(jù)表拆開，將過慢的字段拆出來，并將原來正常的字段留在原來的表，這樣就可以避免因為兩個過慢的字段影響其他業(yè)務(wù)，拆表的場景雖然比較常見，但是可能不會在數(shù)倉建設(shè)初期就出現(xiàn)。

還有一種場景及就是合表，這與拆表是相對的，當大家使用數(shù)倉一段時間之后會發(fā)現(xiàn)A業(yè)務(wù)部門出了一些表，B業(yè)務(wù)部門也出了一些表，而這些表或者數(shù)據(jù)可能是重疊的，也可能業(yè)務(wù)含義是一樣的，只不過字段不一樣。對于這些表而言是可以進行合并的，因為在合并之后可以做整體批量加工的SQL，這樣要比多個表批量加工的SQL復雜度要低很多，而且性能要好很多。對于分區(qū)的場景而言，也要合理地設(shè)置MaxCompute的分區(qū)。

此外還有拉鏈算法，這在傳統(tǒng)數(shù)倉里面也會用到，大家往往會需要使用拉鏈算法來記錄歷史變化情況。而拉鏈算法會使得計算成本變得比較高，尤其在MaxCompute里面或者離線數(shù)倉Hive里面，這是因為其沒有Update的操作，因此需要遍歷全表，需要對比昨天的全量和今天的增量，甚至是比較昨天的全量和今天的全量，才能得到所想要的拉鏈算法的結(jié)果，這樣的計算成本對于MaxCompute而言要高很多。如果數(shù)據(jù)量不大，每天做全量的拉鏈算法也是沒有問題的，只需要考慮保留多久歷史數(shù)據(jù)的問題。而實際上，有些業(yè)務(wù)不會關(guān)心這些歷史數(shù)據(jù)的變化問題，對于這樣的業(yè)務(wù)其實可以只保留最近多少天的歷史數(shù)據(jù)就可以了。其實是因為MaxCompute這邊的數(shù)據(jù)存儲成本很低，如果不使用拉鏈算法，那么就意味著數(shù)據(jù)冗余會高很多，所以其實大家可以計算一下每天增量數(shù)據(jù)的存儲成本有多少，再對比一下數(shù)據(jù)的計算成本，根據(jù)自己的業(yè)務(wù)進行均衡。但是如果每天增量數(shù)據(jù)達到百億這種級別，保留全量數(shù)據(jù)肯定是不現(xiàn)實的，那么就還是去做拉鏈算法。

模型優(yōu)化-合理設(shè)計分區(qū)
MaxCompute分區(qū)的功能一定要合理利用，這對于性能會產(chǎn)生很大的影響，一級分區(qū)一般都是按照天劃分的，建議大家一天一個增量或者一天一個全量來做。二級分區(qū)的選擇反而會多一些，首先大家可以選擇是否建立二級分區(qū)，其次大家可以選擇二級分區(qū)的建立方式。二級分區(qū)比較適合于在where語句中經(jīng)常使用到的字段，而且這個字段應(yīng)該是可枚舉的，比如“男”和“女”這樣的。這里還有一個前提，就是如果這個字段的值的分布是非常不均勻的，那么就不太建議做二級分區(qū)。

如下圖中的例子所示，登錄表每天會有9個億的數(shù)據(jù)，而其中的一個字段是“是否登錄成功”，成功可能有4億，失敗可能有5億，這就比較適合做二級分區(qū)，因為比較均衡。第二個例子是用戶訪問表，每天新增20億數(shù)據(jù)，其中一個字段是“頁面訪問狀態(tài)”，成功訪問“202”是18億，而失敗“203”只有0.5億，其他就更少了，這樣的字段就不適合做二級分區(qū)。在數(shù)量級不大的情況下，不建議做二級分區(qū)，因為幾百萬的數(shù)據(jù)在MaxCompute里面掃描起來也會很快，在數(shù)據(jù)量大了之后可以再考慮二級分區(qū)，因為MaxCompute本身對于分區(qū)有一個上限就是6萬，也就是一級分區(qū)乘以二級分區(qū)的個數(shù)不能超過6萬個。

三、同步任務(wù)優(yōu)化
同步任務(wù)優(yōu)化可以從下圖所示的這樣幾個點進行考慮。正如下面的這張PPT中圖所示。數(shù)據(jù)同步其實就是源庫通過網(wǎng)絡(luò)進入到DataWorks或者自定義的調(diào)度資源里，再從DataWorks里面同步到MaxCompute里面，或者反過來從MaxCompute同步到源庫，但是無論怎么說同步就是分為這樣的幾個點：源庫、網(wǎng)絡(luò)1、DataWorks調(diào)度資源、網(wǎng)絡(luò)2以及MaxCompute，出現(xiàn)瓶頸的地方也就在這幾部分中，如果同步任務(wù)運行緩慢，那么瓶頸點就只能出現(xiàn)在這幾個點中。最常見的情況就是從其他數(shù)據(jù)庫向MaxCompute抽取數(shù)據(jù)，一般情況下的瓶頸點就在源庫這部分，出現(xiàn)問題大家可以優(yōu)先在源庫處尋找。在網(wǎng)絡(luò)層面，從DataWorks到MaxCompute之間的網(wǎng)絡(luò)2大家一般不用關(guān)心，因為這部分是由阿里云負責的，但是從源庫到DataWorks調(diào)度的網(wǎng)絡(luò)1這一段需要由用戶自己保證，公網(wǎng)、內(nèi)網(wǎng)和專線，不同的網(wǎng)絡(luò)環(huán)境中同步的速度也是不一樣的。

再回到同步優(yōu)化的幾個關(guān)鍵點，首先核心同步任務(wù)需要定時優(yōu)先考慮，如果表的數(shù)據(jù)量比較大或者業(yè)務(wù)的優(yōu)先級比較高，那么這些絕對需要提前考慮，因為如果這樣的任務(wù)不提前，那么排在其后面的任務(wù)就會受到影響。第二點就是網(wǎng)路對于同步性能的影響，公網(wǎng)、內(nèi)網(wǎng)或者專線對于性能也會有一定的影響。第三點就是DataWorks調(diào)度資源對于同步任務(wù)的影響，大家在DataWorks里面進行同步都是使用默認的調(diào)度資源，如果同步任務(wù)設(shè)置的并發(fā)過高，就會導致某一個任務(wù)會影響其他任務(wù)，比如處理一百萬數(shù)據(jù)啟動了20個并發(fā)，顯然這是沒有必要的，但是這樣就占掉了全部的同步任務(wù)，導致后續(xù)運行SQL以及其他的同步任務(wù)都跑不起來了，這是因為DataWorks的調(diào)度資源不夠了。所以數(shù)據(jù)同步的并發(fā)絕對不是越多越好的，當處理一兩百萬數(shù)據(jù)的時候，僅需要2到3個并發(fā)就足夠了。此外，還有就是如何判斷源庫和目標庫哪個是瓶頸點。數(shù)據(jù)同步主要使用的是數(shù)據(jù)集成，當離線任務(wù)運行完成之后都會產(chǎn)生這樣的一個日志，在日志的最后會顯示開始時間、結(jié)束時間以及寫入速度等。在圖中有標紅的兩個點，分別是Task WaitWriterTime和Task WaitReaderTime。如果是從RDS往MaxCompute同步，那么Reader指的就是讀取RDS等待的時間，那Writer指的就是寫入MaxCompute的等待的時間，哪一邊的時間更長就意味著哪一邊存在瓶頸點，如果讀的方面時間更長，那么就需要從RDS或者網(wǎng)絡(luò)1入手，也就是通過兩方面的時間來判斷瓶頸點究竟在哪一部分。

計算任務(wù)優(yōu)化
在計算任務(wù)優(yōu)化部分部分，也只與大家分享在SQL部分開發(fā)者應(yīng)該如何進行優(yōu)化。大家平時在進行數(shù)據(jù)處理、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加工等過程中都會使用到SQL。對于SQL的優(yōu)化而言，主要集中在這樣的兩個大方面進行：減少數(shù)據(jù)輸入和避免數(shù)據(jù)傾斜。減少數(shù)據(jù)輸入是最核心的一點，如果數(shù)據(jù)輸入量太大，包括很多無效的數(shù)據(jù)，那么就會占用很多的計算資源。而數(shù)據(jù)傾斜是在離線的數(shù)倉里面經(jīng)常會遇到的，幾乎每個人都會遇到，數(shù)據(jù)傾斜也分為好幾種，需要對應(yīng)地進行優(yōu)化。接下來就為大家展開進行論述。

在正式展開之前還需要講解一下LogView的用法，因為想要判斷問題究竟是因為什么導致都需要從分析LogView入手。每一個SQL執(zhí)行的時候都會產(chǎn)生一個LogView，如下圖中的網(wǎng)址所示，大家可以直接在瀏覽器打開，之后就能打開匯總的頁面，再打開Detail就能看到如下圖所示的明細頁面。對于明細頁面而言，首先需要關(guān)注左側(cè)的執(zhí)行計劃，也就是分為了多少個Map、Reduce以及Join節(jié)點。其次需要關(guān)注TimeLine可以看到哪一個Map運行的時間長，這是尋找數(shù)據(jù)傾斜的依據(jù)。當點擊每一個Map就能看到下面的明細，比如某一個Map有10個節(jié)點在跑，那么就會有10個點。對于明細而言，重點需要關(guān)注的也是TimeLine，需要關(guān)注在分成10個的節(jié)點里面，究竟哪一個跑得快，哪一個跑得慢。下圖中就存在明顯的傾斜，也就是0號節(jié)點跑得很慢，而其他的節(jié)點跑得就比較快，這樣就是一個非常明顯Map階段的傾斜。而使用Long-Task則可以快速定位到跑得慢的節(jié)點，幫助進行快速定位。

當然目前也有了比較好用的工具——MaxCompute Studio，其對于LogView的支持更加強大。在這里面可以直接將剛才的網(wǎng)址粘貼過來，也可以直接連接MaxCompute的項目找到Instance，然后直接點擊Instance查看其執(zhí)行日志，甚至可以將LogView保存在本地或者在本地打開，而網(wǎng)頁版本過期之后就無法打開了。MaxCompute Studio最好用的地方在于其時序圖功能，時序圖能夠列出某一個時間段，哪一個節(jié)點跑得快，哪一個節(jié)點跑得慢，做一個整體地列舉出來，更加方便地定位到Map、Reduce以及里面小的節(jié)點。還有一個分析功能，能夠直接為用戶提供結(jié)果，提示用戶哪一個節(jié)點跑得慢，哪里出現(xiàn)長尾等問題。

分區(qū)的合理使用
前面講述了分區(qū)應(yīng)該如何設(shè)計，這里著重講解分區(qū)應(yīng)該如何使用。如果表存在一級分區(qū)，那么將分區(qū)的篩選放到了條件里面就是一種錯誤的寫法，有可能導致全表掃描。最好的寫法就是像下圖右側(cè)所示的一樣，把Table1的PT先進行篩選做一個子查詢，再把Table2的也做一個分區(qū)先篩選了作為t2，之后將它們兩個Join在一起再加上一個where條件，這樣就能避免全表掃描。對于PT而言，如果使用了系統(tǒng)自帶的函數(shù)，應(yīng)該會做分區(qū)裁剪，而如果使用了自定義的函數(shù)對于PT進行加工，并放到了where條件里就有可能導致全表掃描，而現(xiàn)在DataWorks里面也會有系統(tǒng)提示，也便于大家進行判斷。

多路輸入
在MaxCompute里面支持多路輸入，可以讀取一個表的數(shù)據(jù)并將其同時寫入到兩個地方，這樣就保證了只做了一次查詢，而可以直接生成兩個結(jié)果表。下圖是一個電商的例子，大概就是在銷售訂單表里面有賣家和買家，分別統(tǒng)計了賣家和買家的數(shù)量分別是多少，以前可能需要拆分成兩個SQL，而現(xiàn)在可以用一個SQL同時統(tǒng)計兩者的數(shù)量，只需要讀取一次原表就可以了，既能夠節(jié)省時間，也能夠節(jié)省成本。

慎用SELECT*
因為MaxCompute里面是列式存儲，所以同一列的數(shù)據(jù)都是存儲在一起的，甚至于因為列內(nèi)容相似都會有一些壓縮算法在里面。而SELECT*查詢?nèi)信c直接查詢兩個字段的性能差距是非常大的，所以作為數(shù)據(jù)開發(fā)的規(guī)范，無論數(shù)據(jù)量大小都一定不要使用SELECT*就好了。

先過濾JOIN，REDUCE，UDF
還有一個減少數(shù)據(jù)量的辦法就是在使用Join、Reduce或者UDF的時候，先做過濾在做具體的計算或者Join。

合表
合表也是減少數(shù)據(jù)輸入的一種方式，它其實是從業(yè)務(wù)的角度切入考慮的。比如有一個業(yè)務(wù)分別用到了T1和T2的兩列，另外一個業(yè)務(wù)分別用到了T1和T3的兩列，而這兩個業(yè)務(wù)其實是可以合并到一起的，但是卻放到了兩個表，而這樣就可以將這兩個表合并到一起，這樣只做一次計算就完成了。

Map傾斜
在LogView里面有一個Map的時序，可以看到每個Map里面有多少個Instance，里面的哪一個耗時比較長就是發(fā)生了數(shù)據(jù)傾斜。同樣的，在LogView里面也能找到Map的平均執(zhí)行時間以及最大執(zhí)行時間，如果兩者相差很大，那么必然出現(xiàn)了傾斜。對于這樣的問題，從業(yè)務(wù)層面進行解決一般是修改上游數(shù)據(jù)，讓上游按照均衡的KV值進行重新分布。如果業(yè)務(wù)層面無法規(guī)避，那么可以調(diào)整Map的個數(shù)，也就是加大Map的計算節(jié)點，在默認情況下是每256M數(shù)據(jù)切一個節(jié)點，可以將其調(diào)小，也就加大了Map處理節(jié)點的個數(shù)，使得數(shù)據(jù)分割得更加均勻一些。

Join傾斜
Join階段的傾斜也是比較常見的，這一現(xiàn)象的發(fā)現(xiàn)與Map傾斜基本相同，也是可以通過LogView判斷。但是其解決方案卻需要分為幾種情況進行處理：
-情況1：如果為大表與小表（加載到內(nèi)存不超過512M)，則對小表加MAPJOIN HINT
-情況2：兩個大表Join，KEY值出現(xiàn)數(shù)據(jù)傾斜，傾斜值為NULL，則需對NULL進行隨時值處理
-情況3：兩個大表Join，可以盡量先去重后再Join?? ?
-情況4：兩個大表Join，業(yè)務(wù)層面考慮優(yōu)化，檢查業(yè)務(wù)的必要性

下圖展現(xiàn)的是Join傾斜的幾個具體例子，可以分析具體造成傾斜的情況做出相應(yīng)的處理。

Reduce傾斜
Reduce傾斜現(xiàn)象的查看方式和前面的Map以及Join查看的方式相同，可以從TimeLine看到。可能的情況主要有以下四種：
-情況1：GROUP BY 某個KEY傾斜嚴重（1. 是否可以過濾 2. 寫法改變，見圖）
-情況2：DISTINCT引起的傾斜（打標+GROUPBY)?? ?
-情況3：動態(tài)分區(qū)引起的傾斜，盡量避免使用動態(tài)分區(qū)
-情況4：窗口函數(shù)引起的傾斜，盡量避免使用窗口函數(shù)，要視具體情況而定

Reduce傾斜-DISTINCT
如果是因為DISTINCT造成的數(shù)據(jù)傾斜，有一種解決方法就是打標+GROUPBY，比如在下圖的例子中就是對于求IP段，求美國IP段、中國IP段以及總的IP段一共有多少個，左邊這種圖簡單的寫法，當出現(xiàn)IP Key的傾斜就會使得作業(yè)比較慢，那么就可以將其打散，先求解這條ID的記錄是美國的還是中國的，在子查詢里先做這一步，在外面再去求解總的Count或者Sum，從原本Map-Reduce兩個階段的處理改成了Map-Reduce-Reduce三個階段處理，這種方案也能解決數(shù)據(jù)傾斜問題。

總結(jié)一下，性能調(diào)優(yōu)歸根結(jié)底還是資源不夠了或者資源使用的不合理，或者是因為任務(wù)分配的不好，使得某些資源分配和利用不合理。大家需要根據(jù)本文的內(nèi)容考慮如何將自己的任務(wù)打散，保證任務(wù)在規(guī)定的時間內(nèi)能夠執(zhí)行完畢，同時能夠保證成本的節(jié)約。當然了，大家不僅需要考慮MaxCompute的計算資源，也需要考慮DataWorks的調(diào)度資源，所以性能優(yōu)化最終還是在和資源作斗爭，看資源是否足夠，分配是否合理。

原文鏈接?

本文為云棲社區(qū)原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。?

閱讀全文

算法(90504) 算法(90504)
數(shù)據(jù)倉庫(10389) 數(shù)據(jù)倉庫(10389)
大數(shù)據(jù)(136504) 大數(shù)據(jù)(136504)

FreeRTOS任務(wù)調(diào)度器的三種調(diào)度算法講解（下）

配置如下時，調(diào)度算法就會變成不帶時間片的搶占式調(diào)度

2024-03-21 13:46:18

361

FreeRTOS調(diào)度器中的三種調(diào)度算法實踐（上）

在優(yōu)先級高于運行態(tài)任務(wù)的任務(wù)進入就緒態(tài)時，調(diào)度器立即讓這個高優(yōu)先級的任務(wù)“搶占”運行態(tài)任務(wù)。被搶占意味著任務(wù)移出運行態(tài)并進入就緒態(tài)，并不是因為任務(wù)自己主動讓出或者阻塞。

2024-03-21 13:45:37

阿里大模型“通義聽悟”升級

阿里旗下的強大模型產(chǎn)品“通義聽悟”近日迎來了一系列功能升級，其中包括備受矚目的音視頻問答助手“小悟”的正式上線。這一新功能憑借出色的多語言Query處理能力、長篇章文本理解能力以及指令演化框架優(yōu)化

2024-03-21 11:30:25

281

鴻蒙原生應(yīng)用開發(fā)-ArkTS語言基礎(chǔ)類庫多線程CPU密集型任務(wù)TaskPool

密集型任務(wù)可以提高CPU利用率，提升應(yīng)用程序響應(yīng)速度。當進行一系列同步任務(wù)時，推薦使用Worker；而進行大量或調(diào)度點較為分散的獨立任務(wù)時，不方便使用8個Worker去做負載管理，推薦采用

2024-03-19 14:14:20

OpenVINO?協(xié)同Semantic Kernel：優(yōu)化大模型應(yīng)用性能新路徑

作為主要面向 RAG 任務(wù)方向的框架，Semantic Kernel 可以簡化大模型應(yīng)用開發(fā)過程，而在 RAG 任務(wù)中最常用的深度學習模型就是 Embedding 和 Text completion，分別實現(xiàn)文本的語義向量化和文本生成

2024-03-08 10:41:54

159

淺談新能源汽車充電樁建設(shè)及優(yōu)化

淺談新能源汽車充電樁建設(shè)及優(yōu)化 張穎姣安科瑞電氣股份有限公司?上海嘉定 201801 摘要：本文針對新能源汽車充電樁建設(shè)工作進行探究，采用案例分析法、文獻查閱法，指出了新能源汽車充電樁建設(shè)存在

2024-02-26 10:54:15

151

什么是FPGA？帶你初步揭開它的面紗

？首先，隨著人工智能、大數(shù)據(jù)等web服務(wù)的規(guī)模指數(shù)級增長，通用處理器（CPU）的性能提升遇到了瓶頸。而FPGA的可編程屬性使其成為加速常見計算任務(wù)的理想選擇。例如，在云計算數(shù)據(jù)中心中，F(xiàn)PGA可以用于執(zhí)行

2024-02-21 16:10:49

阿里云在海外市場發(fā)布一系列AI大數(shù)據(jù)產(chǎn)品

近日，阿里云宣布面向海外市場發(fā)布一系列AI計算及大數(shù)據(jù)產(chǎn)品，進一步擴大其在全球市場的份額。這一系列新產(chǎn)品涵蓋了serverless模式的AI服務(wù)平臺、整合向量引擎技術(shù)的大數(shù)據(jù)產(chǎn)品等，旨在為用戶提供更高效、更智能的解決方案。

2024-02-05 11:30:42

566

4G物聯(lián)網(wǎng)環(huán)保數(shù)采儀網(wǎng)關(guān) modbus轉(zhuǎn)環(huán)保HJ212協(xié)議對接環(huán)保云平臺

前言S826產(chǎn)品是博達智聯(lián)科技公司自主研發(fā)的一款4G環(huán)保212數(shù)據(jù)采集網(wǎng)關(guān)，多任務(wù)調(diào)度實時系統(tǒng),自動上報位置，自動上報物聯(lián)卡信息，云平臺自動同步，無需手動設(shè)置,邊緣網(wǎng)關(guān)，網(wǎng)關(guān)當 Modbus 主機

2024-01-31 17:51:47

4GDTU 485轉(zhuǎn)4G 免費物聯(lián)網(wǎng)云平臺遠程數(shù)據(jù)采集監(jiān)控模塊

前言S822產(chǎn)品是博達智聯(lián)科技公司自主研發(fā)的一款本地智能網(wǎng)關(guān)，多任務(wù)調(diào)度實時系統(tǒng),自動上報位置，自動上報物聯(lián)卡信息，云平臺自動同步，無需手動設(shè)置,邊緣網(wǎng)關(guān)，網(wǎng)關(guān)當 Modbus 主機，本地采集，本地

2024-01-31 16:28:15

鴻蒙開發(fā)【分布式任務(wù)調(diào)度】解析

1.FA 遷移可以打通設(shè)備間的壁壘，有助于不同能力的設(shè)備進行互助。前文以一個簡單的例子介紹如何通過分布式任務(wù)調(diào)度提供的能力，實現(xiàn) FA 跨設(shè)備的遷移（包括 FA 啟動及狀態(tài)數(shù)據(jù)的同步）。 2.FA

2024-01-29 18:03:32

317

鴻蒙OS 分布式任務(wù)調(diào)度

形式、數(shù)據(jù)結(jié)構(gòu)、服務(wù)描述語言，屏蔽硬件差異；支持遠程啟動、遠程調(diào)用、業(yè)務(wù)無縫遷移等分布式任務(wù)。分布式任務(wù)調(diào)度平臺在底層實現(xiàn) Ability（分布式任務(wù)調(diào)度的基本組件）跨設(shè)備的啟動/關(guān)閉、連接及斷開連接以及遷移等能力，實現(xiàn)跨設(shè)備的組件管理：啟動和關(guān)閉：向開發(fā)者提

2024-01-29 16:50:23

211

重塑翻譯與識別技術(shù)：開源語音識別模型Whisper的編譯優(yōu)化與部署

模型介紹Whisper模型是一個由OpenAI團隊開發(fā)的通用語音識別模型。它的訓練基于大量不同的音頻數(shù)據(jù)集，是一個多任務(wù)模型，可以執(zhí)行語音識別、語言翻譯、語言識別。下面是模型的整體架構(gòu)：使用方法如下

2024-01-06 08:33:24

344

任務(wù)調(diào)度系統(tǒng)設(shè)計的核心邏輯

Redis的讀寫性能極好，分布式鎖也比Quartz數(shù)據(jù)庫行級鎖更輕量級。當然Redis鎖也可以替換成Zookeeper鎖，也是同樣的機制。在小型項目中，使用：定時任務(wù)框架（Quartz/Spring Schedule）和分布式鎖（redis/zookeeper）有不錯的效果。

2024-01-02 15:09:14

239

兆芯正引入Linux首選內(nèi)核調(diào)度技術(shù)，優(yōu)化性能

近期，兆芯工程團隊亦在致力于將首選內(nèi)核調(diào)度技術(shù)引進Linux系統(tǒng)中。他們試圖通過提議的Linux內(nèi)核補丁，利用已有的ACPI功能來辨別每個核心的特性。這項補丁將在ACPI CPUFreq驅(qū)動程序中體現(xiàn)。這意味著調(diào)度程序能自動在首要核心上運行任務(wù)，使得整體性能更佳。

2023-12-29 14:30:23

180

HarmonyOS應(yīng)用性能與功耗云測試

HarmonyOS 云測試頁面，點擊 HarmonyOS 云測試頁面右側(cè)的創(chuàng)建測試按鈕，進入創(chuàng)建測試任務(wù)頁面**。** 在創(chuàng)建測試任務(wù)頁面選擇性能測試，設(shè)置如下信息后，點擊下一步。 ● 應(yīng)用程序

2023-12-26 16:39:36

【ELF 1開發(fā)板試用】+　8.1 MQTT開發(fā)——連接阿里云【項目復現(xiàn)】

MQTT開發(fā)——連接阿里云【項目復現(xiàn)】本文基于文檔中提供的項目教程，復現(xiàn)ELF 1連接阿里云物聯(lián)網(wǎng)平臺，進行MQTT開發(fā)；記錄ELF1 個人物聯(lián)網(wǎng)開發(fā)的過程，可以提供參考； MQTT 簡述

2023-12-15 22:00:14

《數(shù)據(jù)處理器：DPU編程入門》+初步熟悉這本書的結(jié)構(gòu)和主要內(nèi)容

之一。隨著人們對云計算和大數(shù)據(jù)處理需求的增加，數(shù)據(jù)中心的計算負載也不斷增加。傳統(tǒng)的中央處理器（CPU）在處理這些工作負載時可能會遇到瓶頸，難以提供足夠的性能和效率。DPU通過提供專門的硬件加速，可以

2023-12-08 18:03:11

Get職場新知識：做分析，用大數(shù)據(jù)分析工具

分析工具值得推薦？那就得是奧威BI大數(shù)據(jù)分析工具。主要原因有三： 1、奧威BI方案，開箱即用，立得百張BI報表，大量節(jié)省BI報表開發(fā)時間，一步到位完成銷售、財務(wù)、庫存、采購、應(yīng)收、生產(chǎn)六大主題。 2

2023-12-05 09:36:05

驅(qū)動云/邊緣側(cè)算力建設(shè)的高性能互聯(lián)接口方案

驅(qū)動云/邊緣側(cè)算力建設(shè)的高性能互聯(lián)接口方案

2023-11-23 16:30:35

174

MySQL性能優(yōu)化方法

MySQL 性能優(yōu)化是一項關(guān)鍵的任務(wù)，可以提高數(shù)據(jù)庫的運行速度和效率。以下是一些優(yōu)化方法，包括具體代碼和詳細優(yōu)化方案。

2023-11-22 09:59:15

228

多線程如何保證數(shù)據(jù)的同步

多線程編程是一種并發(fā)編程的方法，意味著程序中同時運行多個線程，每個線程可獨立執(zhí)行不同的任務(wù)，共享同一份數(shù)據(jù)。由于多線程并發(fā)執(zhí)行的特點，會引發(fā)數(shù)據(jù)同步的問題，即保證多個線程對共享數(shù)據(jù)的訪問順序和正確性

2023-11-17 14:22:09

240

NVIDIA Merlin 助力陌陌推薦業(yè)務(wù)實現(xiàn)高性能訓練優(yōu)化

通過 Merlin 大幅提升大規(guī)模深度多目標精排模型訓練性能本案例中，NVIDIA 團隊與陌陌推薦系統(tǒng)團隊深度合作，共同使用 NVIDIA GPU 和 Merlin 軟件解決方案替代其原有解決方案

2023-11-09 10:45:02

120

Crontab：簡單實用的Python 周期任務(wù)調(diào)度工具

的任務(wù)調(diào)度工具，而且希望它盡量簡單、容易使用、不需要外部依賴，最好能夠容納 Crontab 的所有基本功能

2023-11-01 09:40:22

317

Schedule：簡單實用的 Python 周期任務(wù)調(diào)度工具

。 ** ** 2.當需要執(zhí)行的定時任務(wù)有上百個的時候，Crontab的管理就會特別不方便。 ** 另外一個選擇是 Celery，但是 Celery 的配置比較麻煩，如果你只是需要一個輕量級的調(diào)度工具，Celery

2023-10-30 11:18:58

252

嵌入式系統(tǒng)中時間片的任務(wù)調(diào)度方式的優(yōu)點是什么？

嵌入式系統(tǒng)中時間片的任務(wù)調(diào)度方式的優(yōu)點是什么

2023-10-20 06:48:02

曙光生態(tài)環(huán)境大數(shù)據(jù)解決方案助力我國生態(tài)環(huán)境“大數(shù)據(jù)”建設(shè)

相通、數(shù)據(jù)不規(guī)范等難題。通過構(gòu)建智慧高效的生態(tài)環(huán)境大數(shù)據(jù)體系成為推動我國生態(tài)環(huán)境保護的重要支撐。為全面提升生態(tài)環(huán)境系統(tǒng)化、科學化、精細化管理水平，曙光推出生態(tài)環(huán)境大數(shù)據(jù)解決方案。綜合利用物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、人

2023-10-11 15:51:58

313

基于M55H的定制化backbone模型AxeraSpine

Backbone模型是各種視覺任務(wù)訓練的基石，視覺任務(wù)模型的性能和模型的速度都受backbone模型的影響

2023-10-10 16:09:18

382

HarmonyOS CPU與I/O密集型任務(wù)開發(fā)指導

。基于多線程并發(fā)機制處理CPU密集型任務(wù)可以提高CPU利用率，提升應(yīng)用程序響應(yīng)速度。當進行一系列同步任務(wù)時，推薦使用Worker；而進行大量或調(diào)度點較為分散的獨立任務(wù)時，不方便使用8個Worker

2023-09-26 16:29:45

極致優(yōu)化SSD并行讀調(diào)度

個方法論的約束下，如何極致優(yōu)化讀調(diào)度。這些方法對于實施類似LargerThanMem的技術(shù)也將提供有價值的啟發(fā)。

2023-09-18 09:20:21

693

STM32通過NB-IoT連接阿里云IOT平臺

NB-IoT技術(shù)介紹整體框架結(jié)構(gòu) ? 硬件連接注意事項 ? DEMO運行效果 ? 在阿里云物聯(lián)網(wǎng)平臺創(chuàng)建并配置產(chǎn)品 ? 在云平臺創(chuàng)建設(shè)備 ? 常見問題及解決方法 ? DEMO運行過程實物演示

2023-09-11 07:04:09

盤古大模型3.0是什么？

從整體上看，盤古大模型分為3個訓練階段。一是事前培訓，利用龐大數(shù)據(jù)進行事前培訓，獲得通用基礎(chǔ)模型；二是針對微調(diào)，下游行業(yè)的具體任務(wù)，結(jié)合行業(yè)數(shù)據(jù)進行微調(diào)。三是將大型模型反復產(chǎn)生的新數(shù)據(jù)與以前訓練使用的數(shù)據(jù)相結(jié)合，實現(xiàn)大型模型的終身學習。

2023-09-05 09:43:42

1255

盤古大模型和阿里哪個好？

盤古大模型和阿里哪個好？介紹盤古大模型和阿里巴巴兩個產(chǎn)品的優(yōu)缺點和適用場景。一、盤古大模型 1. 產(chǎn)品介紹盤古大模型是杭州大朗科技有限公司推出的一款大數(shù)據(jù)分析平臺，通常用于數(shù)據(jù)挖掘、數(shù)據(jù)

2023-08-31 09:01:35

793

盤古大模型和星火大模型哪個好？

是由百度公司自主研發(fā)的商業(yè)化大數(shù)據(jù)處理平臺，可以支持PB級別的數(shù)據(jù)存儲和數(shù)據(jù)處理任務(wù)。盤古大模型是盤古大數(shù)據(jù)平臺中的核心模塊之一，主要實現(xiàn)數(shù)據(jù)建模和數(shù)據(jù)挖掘等方面的任務(wù)。優(yōu)點： 1、強大的數(shù)據(jù)處理和存儲能力：盤古大模

2023-08-31 09:01:28

1993

移動應(yīng)用高級語言開發(fā)——并發(fā)探索

，探索共享對象的無鎖并發(fā)。此外，在OpenHarmony并發(fā)調(diào)度上，也將針對現(xiàn)存的系統(tǒng)中線程泛濫問題，從時間和空間兩個維度設(shè)計相關(guān)方案進行優(yōu)化和改進，并將開發(fā)一套統(tǒng)一的并行框架，在運行時根據(jù)任務(wù)依賴狀態(tài)

2023-08-28 17:08:28

阿里平頭哥發(fā)布首個 RISC-V AI 軟硬全棧平臺

平臺通過軟硬件深度協(xié)同，較經(jīng)典方案提升超 8 成性能，支持運行 170 余個主流 AI 模型，推動 RISC-V 進入高性能 AI 應(yīng)用時代。平頭哥表示，他們通過更新自研一站式 AI 部署套件

2023-08-26 14:14:40

解析優(yōu)化的調(diào)度邏輯和cuda實現(xiàn)

/how-to-optim-algorithm-in-cuda 這個倉庫整理了一些cuda優(yōu)化相關(guān)鏈接以及大模型訓練推理相關(guān)的知識鏈接（large-language-model-note子目錄下），歡迎查看。 0x1. 調(diào)度邏輯解析

2023-08-24 11:15:25

643

一文帶你詳解芯片--SL8541e-系統(tǒng)性能優(yōu)化

背景伙伴反饋，設(shè)備操作卡頓，OH基礎(chǔ)系統(tǒng)版本應(yīng)用操作慢，應(yīng)用人機交互體驗差。本文為你總結(jié)芯片解決方案–SL8541e-系統(tǒng)性能優(yōu)化。主要內(nèi)容包括： *1. 確定優(yōu)化思路幀率優(yōu)化 應(yīng)用啟動優(yōu)化

2023-08-22 09:12:01

SwinTransformer模型優(yōu)化

SwinTransformer模型優(yōu)化

2023-08-18 11:26:46

431

使用Koordinator支持異構(gòu)資源管理和任務(wù)調(diào)度場景的實踐經(jīng)驗

Koordinator 是阿里云基于過去我們建設(shè)的統(tǒng)一調(diào)度系統(tǒng)中積累的技術(shù)和實踐經(jīng)驗，對外開源了新一代的調(diào)度系統(tǒng)。

2023-08-15 10:09:33

417

為什么無法使用POT優(yōu)化Tensorflow （TF）或MXNet模型？

無法使用 POT 優(yōu)化 Tensorflow （TF）或 MXNet 模型，以便在英特爾凌動? 平臺上使用 OpenVINO? 工具套件進行推理。運行 pot -h。接收錯誤消息：非法指令例外

2023-08-15 08:05:26

Arm性能模型庫發(fā)布說明產(chǎn)品修訂版

ARM?性能模型庫是一個包，其中包含支持的ARM性能模型，用于動態(tài)建模和模擬已配置的ARM IP的性能。您可以根據(jù)模型的性能數(shù)據(jù)調(diào)整您的IP配置，從而提高SoC設(shè)計中IP的性能。不同版本的ARM

2023-08-11 06:20:07

MySQL到ES的4種常用數(shù)據(jù)同步方案

如何實現(xiàn) MySQL 數(shù)據(jù)庫和 ES 的數(shù)據(jù)同步，今天和大家聊聊 MySQL 和 ES 數(shù)據(jù)同步的各種方案。

2023-08-09 11:36:21

342

如何提高數(shù)據(jù)倉庫的性能及優(yōu)化設(shè)計

　　隨著數(shù)據(jù)倉庫規(guī)模的擴大，數(shù)據(jù)倉庫的性能問題就顯得越來越突出，如何提高數(shù)據(jù)倉庫的性能，除了在設(shè)計階段對其邏輯結(jié)構(gòu)和物理結(jié)構(gòu)進行優(yōu)化設(shè)計外；還可以在數(shù)據(jù)倉庫運行階段，采取一些優(yōu)化措施來使系統(tǒng)性能最佳

2023-07-18 16:10:37

圖的視覺優(yōu)化#大數(shù)據(jù)

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-18 13:55:19

135.135 尚硅谷 CDH數(shù)倉用戶行為數(shù)倉ODS層導數(shù)據(jù)

數(shù)據(jù)

充八萬發(fā)布于 2023-07-18 02:59:04

RDS性能優(yōu)化、數(shù)據(jù)備份和恢復(2)#云計算

云計算

學習硬聲知識發(fā)布于 2023-07-14 21:19:43

RDS性能優(yōu)化、數(shù)據(jù)備份和恢復(1)#云計算

云計算

學習硬聲知識發(fā)布于 2023-07-14 21:19:20

4G 智慧數(shù)據(jù)采集器

協(xié)議支持阿里云，百度云，中移物聯(lián)云等第三方平臺支持移動、聯(lián)通、電信物聯(lián)網(wǎng)卡支持自定義心跳包、注冊包技術(shù)參數(shù)標準4G端口數(shù)1路485速率2Mbps ~ 8Mbps接口

2023-07-14 16:24:59

RDS性能優(yōu)化、數(shù)據(jù)備份和恢復(2)#云計算

云計算

學習硬聲知識發(fā)布于 2023-07-13 21:56:55

RDS性能優(yōu)化、數(shù)據(jù)備份和恢復(1)#云計算

云計算

學習硬聲知識發(fā)布于 2023-07-13 21:56:11

點云標注的算法優(yōu)化與性能提升

點云標注的算法優(yōu)化和性能提升是提高自動駕駛技術(shù)的關(guān)鍵因素。通過優(yōu)化算法和提升性能，可以獲得更準確、更高效的點云標注結(jié)果。首先，算法優(yōu)化可以通過使用先進的深度學習模型和算法來實現(xiàn)。例如，使用三維卷積

2023-07-13 15:20:08

252

大數(shù)據(jù)與云計算的關(guān)系(2)#大數(shù)據(jù)分析

大數(shù)據(jù)分析

學習硬聲知識發(fā)布于 2023-07-13 00:12:15

063. 阿里云·無影云桌面-試用NX1953 #硬聲創(chuàng)作季

阿里云

充八萬發(fā)布于 2023-07-06 02:08:04

062. 阿里云·無影云桌面-試用NX1953-續(xù)

阿里云

充八萬發(fā)布于 2023-07-06 02:06:55

阿里云飛天分布式調(diào)度(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:51:28

資源調(diào)度(2)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:47:23

資源調(diào)度(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:44:37

讀流程優(yōu)化-BackupRead(2)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:43:55

讀流程優(yōu)化-BackupRead(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:43:28

其他計算和物理優(yōu)化(2)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:01:54

其他計算和物理優(yōu)化(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 11:01:05

關(guān)系型數(shù)據(jù)編程模型(2)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 10:58:27

關(guān)系型數(shù)據(jù)編程模型(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 10:57:52

任務(wù)調(diào)度(2)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 10:54:34

任務(wù)調(diào)度(1)#大數(shù)據(jù)處理

大數(shù)據(jù)

未來加油dz發(fā)布于 2023-07-05 10:53:37

電商數(shù)據(jù)分析攻略，讓你輕松搞定數(shù)據(jù)分析！

在當今的數(shù)字經(jīng)濟時代，運用大數(shù)據(jù)分析來促進業(yè)務(wù)增長已然成為一種普遍行為，擁有一套系統(tǒng)化的數(shù)據(jù)分析方案尤為重要。奧威BI電商數(shù)據(jù)分析方案是一種基于數(shù)據(jù)挖掘和機器學習技術(shù)的解決方案，以豐富BI經(jīng)驗結(jié)合電

2023-06-27 09:22:14

想通過ESP8266連接阿里云，固件哪里有？

想用新唐的板子，通過esp8266連接阿里云有沒有測試好的esp8266的固件？還是說，這個固件要自己修改，自己寫？

2023-06-27 07:40:08

云知聲山海大模型各項性能持續(xù)優(yōu)化

? 云知聲山海大模型正式發(fā)布，交出其在AGI領(lǐng)域的第一份答卷，并進入有序迭代階段。時隔一個月，山海大模型迎來了又一次比較大的升級——各項性能持續(xù)優(yōu)化，且在核心能力上實現(xiàn)三大升級：通過迭代實現(xiàn)了在特定

2023-06-26 11:07:37

427

大數(shù)據(jù)下構(gòu)建智慧消防建設(shè)的發(fā)展與問題安科瑞許敏

摘要：在大數(shù)據(jù)時代，各行各業(yè)開始引入大數(shù)據(jù)技術(shù)，以推動行業(yè)轉(zhuǎn)型升級，迎合信息時代對行業(yè)的智能化發(fā)展要求。在消防工作方面，同樣應(yīng)當加強大數(shù)據(jù)等先進信息技術(shù)的應(yīng)用，以便完成智慧消防建設(shè)，為消防工作

2023-06-21 12:26:03

328

Redis數(shù)據(jù)同步解決方案—NineData

NineData（https://www.ninedata.cloud/）在Redis的同步上，提供了穩(wěn)定和高效的解決方案，并且性能上也領(lǐng)先其他同步工具，特別是在同步的動態(tài)限流、數(shù)據(jù)對比修復和限流

2023-06-05 15:31:25

494

阿里又開源一款數(shù)據(jù)同步工具DataX，穩(wěn)定又高效，好用到爆！

DataX 是阿里云 DataWorks 數(shù)據(jù)集成的開源版本，主要就是用于實現(xiàn)數(shù)據(jù)間的離線同步。 DataX 致力于實現(xiàn)包括關(guān)系型數(shù)據(jù)庫（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源（即不同的數(shù)據(jù)庫）間穩(wěn)定高效的數(shù)據(jù)同步功能。

2023-05-18 10:52:40

3214

f429igt6阿里云與iwip對接出現(xiàn)問題怎么解決呢？

rtt系統(tǒng)使用4.0.1系統(tǒng)。硬件網(wǎng)絡(luò)選擇enc28j60模塊協(xié)議棧使用iwip2.0.1 阿里云SDK包使用3.0.1 當前通過ping命令測試數(shù)據(jù)是ping通的。所以確認網(wǎng)絡(luò)通信正常。但是

2023-05-17 10:57:53

RISC-V入云！賽昉科技聯(lián)合中國電信完成首個RISC-V云原生輕量級虛擬機驗證

QEMU+KVM虛擬化方案，TeleVM在RISC-V架構(gòu)下的內(nèi)存開銷降低了約90%，啟動時延減少了約80%。中國電信在近日舉辦的第六屆數(shù)字中國建設(shè)峰會·云生態(tài)大會發(fā)布了這一成果，該成果是中國電信

2023-05-11 14:08:09

阿里云組件的底層HAL TCP相關(guān)接口是不是有問題？

使能AT組件，選擇EC200S連接阿里云，出現(xiàn)錯誤，一直解析不出來地址，換的AIR720也是這樣，阿里云組件的底層HAL TCP相關(guān)接口是不是有問題bug?

2023-05-05 14:41:26

IP5516 TWS藍牙耳機充電倉方案

KF科發(fā)鑫電子：IP5516 TWS充電盒方案的福音為提供全套技術(shù)支持一，概述： IP5516一款集成升壓轉(zhuǎn)換器、鋰電池充電管理、電池電量指示的多功能電源管理SOC，為TWS藍牙耳機充電倉提供完整

2023-05-02 16:29:27

《現(xiàn)代CPU性能分析與優(yōu)化》--讀書心得筆記

很榮幸拿到這本<<現(xiàn)代CPU性能分析與優(yōu)化>>,花了幾天的時間瀏覽了一遍,書比較單薄,正文只有不到200頁,但是里面的內(nèi)容確是非常豐富的,一般

2023-04-24 15:31:26

OpenHarmony應(yīng)用模型的構(gòu)成要素分析

。 OpenHarmony應(yīng)用模型的構(gòu)成要素包括：應(yīng)用組件、應(yīng)用進程模型、應(yīng)用線程模型、應(yīng)用任務(wù)管理模型、應(yīng)用配置文件五個部分。 1.應(yīng)用組件應(yīng)用組件是應(yīng)用的基本組成單位，是應(yīng)用的運行入口。用戶啟動

2023-04-24 10:26:20

迅為RK3568核心板應(yīng)用于智慧交通解決方案

的基礎(chǔ)上，融入物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)、移動互聯(lián)網(wǎng)等新技術(shù)，通過匯集交通信息，提供實時交通數(shù)據(jù)的交通信息服務(wù)，大量使用數(shù)據(jù)模型，數(shù)據(jù)挖掘等數(shù)據(jù)處理技術(shù)，實現(xiàn)智慧交通的系統(tǒng)性、實時性、信息交流的交互性以及服務(wù)的廣泛性。

2023-04-19 11:11:30

《現(xiàn)代CPU性能分析與優(yōu)化》---精簡的優(yōu)化書

《現(xiàn)代CPU性能分析與優(yōu)化》是一本非常實用的書籍，對于從事性能關(guān)鍵型應(yīng)用程序開發(fā)和進行系統(tǒng)底層優(yōu)化的技術(shù)人員來說是不可或缺的。這本書也很適合任何想更好地了解應(yīng)用程序性能并探索其診斷和改進方法的開發(fā)者

2023-04-18 16:03:36

大數(shù)據(jù)平臺有哪些大數(shù)據(jù)技術(shù)應(yīng)用有哪些

大數(shù)據(jù)平臺指的是具體的平臺比如某個商業(yè)公司用的某個基于大數(shù)據(jù)開發(fā)的平臺，大數(shù)據(jù)平臺主要有阿里巴巴、華為云、百度云、浪潮、騰訊等。　　大數(shù)據(jù)平臺可以根據(jù)應(yīng)用場景和功能需求，分為多種類型。以下

2023-04-16 16:14:00

9825

大數(shù)據(jù)技術(shù)主要學什么大數(shù)據(jù)技術(shù)就業(yè)方向

大數(shù)據(jù)技術(shù)專業(yè)主要包括以下方面的學習內(nèi)容：　　數(shù)據(jù)庫技術(shù)： 數(shù)據(jù)庫是存儲和管理數(shù)據(jù)的關(guān)鍵技術(shù)。大數(shù)據(jù)技術(shù)專業(yè)需要學習SQL和NoSQL等不同類型的數(shù)據(jù)庫技術(shù)，以及如何優(yōu)化數(shù)據(jù)庫性能和處理海量

2023-04-14 17:21:35

5307

含多微電網(wǎng)租賃共享儲能的配電網(wǎng)博弈優(yōu)化調(diào)度

為從體，構(gòu)建一主多從博弈優(yōu)化模型。主體制定分時電價實施調(diào)峰調(diào)度，達到效益最大。從體響應(yīng)分時電價，實施兩階段優(yōu)化，第一階段優(yōu)化儲能應(yīng)用：各微電網(wǎng)優(yōu)化儲能充放電策略以平抑功率波動，使負荷均方差最小和儲能成本最小，并按需

2023-04-14 11:37:04

含多微電網(wǎng)租賃共享儲能的配電網(wǎng)博弈優(yōu)化調(diào)度(Matlab代碼實現(xiàn))

體，以微電網(wǎng)聯(lián)盟和共享儲能運營商為從體，構(gòu)建一主多從博弈優(yōu)化模型。主體制定分時電價實施調(diào)峰調(diào)度，達到效益最大。從體響應(yīng)分時電價，實施兩階段優(yōu)化，第一階段優(yōu)化儲能應(yīng)用：各微電網(wǎng)優(yōu)化儲能充放電策略以平抑功率波動，使負

2023-04-14 11:05:35

虹科方案 | 使用HK-TrueNAS保護關(guān)鍵任務(wù)數(shù)據(jù)-2

虹科方案HK-TrueNASHongKe本篇文章我們繼續(xù)介紹上周的《虹科方案|使用HK-TrueNAS保護關(guān)鍵任務(wù)數(shù)據(jù)》HK-TrueNAS為應(yīng)用程序、虛擬機及其數(shù)據(jù)的數(shù)據(jù)保護提供了比基于磁帶的備份

2023-04-13 14:52:17

859

從各個維度再次介紹Spring Boot定時任務(wù)調(diào)度

Java自帶的java.util.Timer類，這個類允許你調(diào)度一個java.util.TimerTask任務(wù)。使用這種方式可以讓你的程序按照某一個頻度執(zhí)行，但不能在指定時間運行。一般用的較少。

2023-04-12 11:01:04

449

Quartz任務(wù)調(diào)度基本實現(xiàn)原理

Quartz是一個完全由Java編寫的開源作業(yè)調(diào)度框架，為在Java應(yīng)用程序中進行作業(yè)調(diào)度提供了簡單卻強大的機制。Quartz允許開發(fā)人員根據(jù)時間間隔來調(diào)度作業(yè)。它實現(xiàn)了作業(yè)和觸發(fā)器的多對多的關(guān)系，還能把多個作業(yè)與不同的觸發(fā)器關(guān)聯(lián)。簡單地創(chuàng)建一個org.quarz.Job接口的Java類。

2023-04-12 10:48:26

671

智能車間調(diào)度綜述

車間調(diào)度問題：車間調(diào)度問題是指如何在機器等資源有限的情況下，合理調(diào)度生產(chǎn)資源來安排車間生產(chǎn)任務(wù)，以滿足一至多個優(yōu)化目標的過程。作業(yè)車間調(diào)度問題：一個加工系統(tǒng)有 M 臺機器，要求加工 N 個工件

2023-04-11 10:52:04

基于DolphinScheduler的智能調(diào)度引擎在宇動源DDS的應(yīng)用

演講，主要介紹了自主研發(fā)的大數(shù)據(jù)基礎(chǔ)平臺-BDP和圖形化數(shù)據(jù)開發(fā)產(chǎn)品-DDS，在使用“海豚 調(diào)度”（新一代大數(shù)據(jù)任務(wù)調(diào)度）植入自有產(chǎn)品的解決方案以及針對需求的優(yōu)化等經(jīng)驗分享。

2023-04-11 10:50:40

智能優(yōu)化算法總結(jié):數(shù)字孿生下的車間調(diào)度

了各種組合優(yōu)化問題，調(diào)度問題也涉及到單機、并行機、流水車間、作業(yè)車間、放開車間等問題類型，是各種文章經(jīng)常引用作為比較的。

2023-04-11 10:42:53

煤礦行業(yè)融合通信綜合調(diào)度解決方案

，加強完善通信聯(lián)絡(luò)系統(tǒng)設(shè) 備，保證生產(chǎn)過程實時調(diào)度管理，實現(xiàn)煤礦通信系統(tǒng)的高度融合。近年來，北峰通信根據(jù)煤礦行業(yè)安全生產(chǎn)(防爆終端多樣化)及綜合調(diào)度(平臺管理智能化)需求，不斷優(yōu)化解決方案在煤礦行業(yè)應(yīng)用的適配性。北峰

2023-04-11 10:21:20

智能調(diào)度什么意思

中的許多組合問題比較復雜，要從可能的組合或序列中尋求出種最佳調(diào)度方案需要很大的搜索空間，可能產(chǎn)生組合爆炸問題。借由大數(shù)據(jù)等科技的運用，成功實現(xiàn)智能車貨匹配及智能實時調(diào)度，準確率高達99%。 1、智能車貨匹配。 2、智能實時調(diào)度。 3、智能標準報價。 4、物流信息全程追蹤和可視化。舉個例子，智

2023-04-10 17:34:14

693

已全部加載完成

搜索歷史

調(diào)度、模型、同步與任務(wù)——阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化方案

評論

調(diào)度、模型、同步與任務(wù)——阿里云大數(shù)據(jù)數(shù)倉建設(shè)性能優(yōu)化方案