近日,有數(shù)據(jù)挖掘領(lǐng)域“奧運(yùn)會(huì)”之稱(chēng)的KDD Cup 2018比賽結(jié)果出爐。今年的主題為空氣質(zhì)量預(yù)測(cè),中國(guó)團(tuán)隊(duì)Getmax包攬三項(xiàng)大獎(jiǎng),獲得兩項(xiàng)第一,一項(xiàng)第二的好成績(jī)。本文帶來(lái)該團(tuán)隊(duì)親述算法思路與技術(shù)細(xì)節(jié)。
KDD Cup是由 ACM 的數(shù)據(jù)挖掘及知識(shí)發(fā)現(xiàn)專(zhuān)委會(huì)(SIGKDD)主辦的數(shù)據(jù)挖掘研究領(lǐng)域的國(guó)際頂級(jí)賽事,從1997年至今已有 21 年的歷史。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國(guó)際頂級(jí)賽事,KDD Cup 每年都會(huì)吸引來(lái)自世界各地?cái)?shù)據(jù)挖掘領(lǐng)域的頂尖專(zhuān)家、學(xué)者和工程師參賽,因此也有“大數(shù)據(jù)奧運(yùn)會(huì)”之名。
與往年只有最終成績(jī)獎(jiǎng)項(xiàng)不同,KDD Cup 2018計(jì)算了比賽過(guò)程中的成績(jī)并設(shè)立了三項(xiàng)大獎(jiǎng)——“The General Track”、“最后10天專(zhuān)項(xiàng)獎(jiǎng)”、“最佳長(zhǎng)期預(yù)測(cè)獎(jiǎng)”,從三個(gè)維度來(lái)獎(jiǎng)勵(lì)比賽中表現(xiàn)突出的隊(duì)伍。而“Getmax”也因全面而突出的表現(xiàn),從4000多個(gè)參賽隊(duì)伍中脫穎而出,成為唯一包攬三項(xiàng)大獎(jiǎng)的隊(duì)伍,分別取得一項(xiàng)亞軍、兩項(xiàng)冠軍的成績(jī)。
如何在KDD Cup這樣高手如云的國(guó)際賽事中脫穎而出?Getmax團(tuán)隊(duì)向新智元詳細(xì)介紹了他們今年的參賽解決方案,包括如何理解空氣質(zhì)量問(wèn)題,分析數(shù)據(jù),特征工程,以及如何針對(duì)應(yīng)用特點(diǎn)進(jìn)行深度學(xué)習(xí)建模與優(yōu)化。
背景介紹:KDD CUP 2018預(yù)測(cè)空氣質(zhì)量
KDD Cup 2018關(guān)注空氣質(zhì)量問(wèn)題。在過(guò)去幾年中,空氣質(zhì)量問(wèn)題已經(jīng)影響了很多發(fā)展中國(guó)家的大城市。2011年,康奈爾大學(xué)空氣質(zhì)量專(zhuān)家Dane Westerdahl在接受《洛杉磯時(shí)報(bào)》的采訪時(shí)表示,有些時(shí)候,發(fā)展中國(guó)家城市的空氣質(zhì)量和“森林大火下風(fēng)口的空氣質(zhì)量”相當(dāng)。
在眾多空氣污染物中,懸浮顆粒(particulate matters,簡(jiǎn)稱(chēng)PM)是最致命的一種之一。直徑小于或等于2.5 μm的懸浮顆粒可以進(jìn)入肺部深處,進(jìn)入血管,導(dǎo)致 DNA 突變和癌癥,中樞神經(jīng)系統(tǒng)損傷和過(guò)早死亡。
主辦方在比賽中提供中國(guó)北京和英國(guó)倫敦的數(shù)據(jù)。比賽選手需要預(yù)測(cè)未來(lái)48小時(shí)內(nèi) PM2.5, PM10和O3的濃度(倫敦只需要預(yù)測(cè)PM2.5和PM10)。
Getmanx團(tuán)隊(duì)介紹:
羅志鵬微軟Bing搜索廣告算法工程師,北京大學(xué)軟件工程專(zhuān)業(yè)碩士,專(zhuān)注于深度學(xué)習(xí)技術(shù)在NLP, 廣告相關(guān)性匹配,CTR預(yù)估等方面的研究及應(yīng)用。
胡可阿里媽媽搜索直通車(chē)團(tuán)隊(duì)算法專(zhuān)家,碩士畢業(yè)于香港中文大學(xué)機(jī)器學(xué)習(xí)方向。工作技術(shù)方向?yàn)樯疃葘W(xué)習(xí)與廣告算法。
黃堅(jiān)強(qiáng)北京大學(xué)軟件工程專(zhuān)業(yè)碩士在讀,擅長(zhǎng)特征工程、自然語(yǔ)言處理、深度學(xué)習(xí)。
評(píng)測(cè)指標(biāo)
每天,提交的結(jié)果將會(huì)和真實(shí)空氣質(zhì)量數(shù)據(jù)(也就是空氣監(jiān)測(cè)站測(cè)量的污染物濃度)比較,并根據(jù)Symmetric mean absolute percentage error評(píng)分:
At是真實(shí)值,F(xiàn)t是預(yù)測(cè)值。
題目特點(diǎn)以及常用方法
空氣質(zhì)量相關(guān)預(yù)測(cè)問(wèn)題相對(duì)比較新,涉及的領(lǐng)域包括環(huán)境科學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué),近年也有機(jī)器學(xué)習(xí)方面的研究工作。國(guó)內(nèi)外多個(gè)網(wǎng)站,APP都有對(duì)空氣質(zhì)量預(yù)測(cè)的應(yīng)用?,F(xiàn)有的方法主要集中于統(tǒng)計(jì)學(xué)以及線性回歸等機(jī)器學(xué)習(xí)模型,近年也有RNN相關(guān)的研究[1],現(xiàn)有的模型主要預(yù)測(cè)時(shí)間段在8~24小時(shí)以?xún)?nèi)。
空氣質(zhì)量預(yù)測(cè)具有規(guī)律性弱,不穩(wěn)定,易突變的特點(diǎn)。因?yàn)楸荣愐A(yù)測(cè)48小時(shí)時(shí)間序列以及北京/倫敦城市內(nèi)幾十個(gè)預(yù)測(cè)地點(diǎn),建模更長(zhǎng)的時(shí)間序列以及地理拓?fù)潢P(guān)系給機(jī)器學(xué)習(xí)模型帶來(lái)挑戰(zhàn)。
現(xiàn)有的方法針對(duì)的預(yù)測(cè)的時(shí)間段較短,沒(méi)有基于位置拓?fù)湟约袄锰鞖忸A(yù)報(bào)進(jìn)行建模,在機(jī)器學(xué)習(xí)尤其深度學(xué)習(xí)模型的運(yùn)用也處于探索階段。并且,由于比賽賽制每天需提交未來(lái)結(jié)果,相對(duì)于很多基于固定測(cè)試集的方案或比賽更接近真實(shí)工業(yè)界,對(duì)模型的穩(wěn)定性以及迭代開(kāi)銷(xiāo)也有很多挑戰(zhàn)。
比賽數(shù)據(jù)與數(shù)據(jù)分析
本題提供主要三方面數(shù)據(jù):
空氣質(zhì)量數(shù)據(jù), 主要包括以下幾種重要的空氣污染物:PM2.5, PM10, O3
天氣氣象數(shù)據(jù):地理網(wǎng)格數(shù)據(jù)點(diǎn)的天氣,溫度,氣壓,濕度,風(fēng)速,風(fēng)向
未來(lái)48小時(shí)天氣預(yù)報(bào):與天氣氣象數(shù)據(jù)相同網(wǎng)格點(diǎn)的天氣,溫度,氣壓,濕度,風(fēng)速,風(fēng)向預(yù)報(bào)值
其中過(guò)去一年的數(shù)據(jù)有空氣質(zhì)量數(shù)據(jù)與天氣數(shù)據(jù),過(guò)去一個(gè)月的數(shù)據(jù)有天氣預(yù)報(bào)數(shù)據(jù)。
首先,我們觀察了北京站點(diǎn)2018年2月到5月之間的空氣污染物(PM2.5)濃度變化情況,以北京奧體中心站點(diǎn)PM2.5為例,下圖顯示了PM2.5隨時(shí)間的變化,從圖中可以看出,北京的PM2.5濃度變化不定,最低能達(dá)到10以?xún)?nèi),最高能達(dá)到350左右。并且在數(shù)小時(shí)就可以產(chǎn)生劇烈的變換,為預(yù)測(cè)增加了很大的難度。
特征工程
我們首先提取了每個(gè)站點(diǎn)過(guò)去72小時(shí)的空氣質(zhì)量,以及每個(gè)站點(diǎn)最近網(wǎng)格過(guò)去72小時(shí)的氣象數(shù)據(jù)來(lái)作為站點(diǎn)的氣象特征,使用這些特征構(gòu)建了第一個(gè)模型。
我們發(fā)現(xiàn),基于歷史統(tǒng)計(jì)量的模型對(duì)于長(zhǎng)期預(yù)測(cè)尤其是突變效果并不理想。以 5 月 7 號(hào)對(duì)于未來(lái)兩天預(yù)測(cè)為例,下圖可以看出,在 5 月 8 日到 5 月 9 日模型一的 PM2.5 濃度從 40 上升到 80 又下降到 40,而我們基于歷史統(tǒng)計(jì)量特征的模型始終保持在 50 左右,經(jīng)過(guò)數(shù)據(jù)分析我們發(fā)現(xiàn),這段時(shí)間的天氣發(fā)生了一定的變化,我們分析未來(lái)天氣預(yù)報(bào)是問(wèn)題的關(guān)鍵并構(gòu)建相關(guān)特征。
北京奧體中心站點(diǎn)5月8號(hào)-5月9號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值
而天氣預(yù)報(bào)數(shù)據(jù)只有 2018 年 4 月 10 號(hào)后約一個(gè)月的數(shù)據(jù),在此前一年的訓(xùn)練數(shù)據(jù)缺失天氣預(yù)報(bào),沒(méi)法做有效的訓(xùn)練。所以我們使用 2018 年 4 月 10 號(hào)以前的真實(shí)氣象數(shù)據(jù)代替此時(shí)段天氣預(yù)報(bào)數(shù)據(jù)。
然而,由于真實(shí)天氣數(shù)據(jù)與預(yù)測(cè)天氣數(shù)據(jù)分布并不一致,我們采取對(duì)訓(xùn)練數(shù)據(jù)中的真實(shí)數(shù)據(jù)引入高斯噪聲,并且考慮到短期預(yù)報(bào)與長(zhǎng)期預(yù)報(bào)估計(jì)誤差的不同,針對(duì)于不同的預(yù)測(cè)小時(shí)段進(jìn)行了不同的參數(shù)估計(jì),緩解了訓(xùn)練集與預(yù)測(cè)集合不一致所造成的過(guò)擬合問(wèn)題。
針對(duì)于某些特殊時(shí)段天氣預(yù)報(bào)預(yù)測(cè)偏差過(guò)大造成的不穩(wěn)定問(wèn)題,我們進(jìn)一步使用分箱平滑。參照真實(shí)天氣預(yù)報(bào)一個(gè)月數(shù)據(jù)的樹(shù)模型訓(xùn)練集上的特征重要性與測(cè)試集效果進(jìn)行了超參數(shù)確定。并且我們也嘗試transfer learning等方法優(yōu)化分布不一致問(wèn)題,但由于最后一個(gè)月數(shù)據(jù)太少效果不穩(wěn)定,并且迭代開(kāi)銷(xiāo)大沒(méi)有采用。
在基于單點(diǎn)構(gòu)建天氣預(yù)報(bào)特征后,我們發(fā)現(xiàn)很多周?chē)轿坏奶鞖忸A(yù)報(bào)信息對(duì)于當(dāng)前點(diǎn)也有很大影響。我們由利用幾百個(gè)網(wǎng)格數(shù)據(jù)點(diǎn)進(jìn)行拓?fù)湫畔⑻卣鳂?gòu)建。首先我們針對(duì)每個(gè)城市的每個(gè)站點(diǎn)的 8 個(gè)臨近方位角去提取 8 個(gè)網(wǎng)格數(shù)據(jù)點(diǎn)的天氣預(yù)報(bào)特征。考慮到其他位置的天氣如風(fēng)速等會(huì)影響到當(dāng)前方位的污染狀況,我們也針對(duì)北京 12 個(gè)經(jīng)緯度跨度較大的網(wǎng)格數(shù)據(jù)點(diǎn)作為全局預(yù)報(bào)特征,取得了較大的提升。Model1 是基于歷史統(tǒng)計(jì)量以及初步天氣預(yù)報(bào)特征模型,Model2 是細(xì)化天氣預(yù)報(bào)特征與地理位置特征的模型。
北京奧體中心站點(diǎn)5月8號(hào)到5月9號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值
我們也在其他預(yù)測(cè)日驗(yàn)證了模型效果。下圖為兩個(gè)模型在 5 月 28 號(hào)和 29 號(hào)的效果圖(29 日后面有數(shù)據(jù)缺失),我們的細(xì)粒度天氣預(yù)報(bào)特征也可以更好的預(yù)測(cè)趨勢(shì)。圖中空氣質(zhì)量有較大的突變,而我們的模型也捕捉到了突變趨勢(shì)。突變是對(duì)于實(shí)際應(yīng)用有重要應(yīng)用價(jià)值的場(chǎng)景,在這次突變天氣提交我們成績(jī)?yōu)?.48,同當(dāng)日第二名成績(jī) 0.54 相比有明顯優(yōu)勢(shì)。
北京奧體中心站點(diǎn)5月28號(hào)到5月29號(hào)的PM2.5預(yù)測(cè)值及真實(shí)值
最終,特征主要分為六類(lèi):
基本特征:需預(yù)測(cè)的第幾個(gè)小時(shí),樣本是在當(dāng)天的第幾小時(shí),所在的經(jīng)緯度等
空氣質(zhì)量特征:過(guò)去1,3,5……72小時(shí)的污染物濃度/過(guò)去1,3,5, 7天同小時(shí)時(shí)間污染物濃度均值,中位數(shù),最大值,最小值等統(tǒng)計(jì)值,不同小時(shí)之間rate/diff等趨勢(shì)特征等
天氣特征:過(guò)去1,3,5……48小時(shí)平均風(fēng)速,風(fēng)向分箱聚合等
天氣預(yù)報(bào)特征:預(yù)測(cè)時(shí)間所在小時(shí)風(fēng)速風(fēng)向,預(yù)測(cè)時(shí)間之前1,3,6,12小時(shí)風(fēng)速平滑統(tǒng)計(jì)量累計(jì)值、極值等,按照風(fēng)向分箱聚合等統(tǒng)計(jì)量等
拓?fù)湮恢孟嚓P(guān)特征:全局統(tǒng)計(jì)量,離當(dāng)前位置最近的 8 個(gè)方位統(tǒng)計(jì)量,該城市 12 個(gè)方位統(tǒng)計(jì)量等
歷史突變相關(guān)特征:歷史最大/最小統(tǒng)計(jì)量距離當(dāng)前隔多久,相隔的時(shí)間內(nèi)平均統(tǒng)計(jì)量,極值的差,以及歷史的極值之間的時(shí)間差等
我們從 2027 個(gè)特征中采用較為重要的 885 個(gè)特征,訓(xùn)練數(shù)據(jù)共 75 萬(wàn)條。
實(shí)驗(yàn)?zāi)P停篏BDT、DNN、RNN
我們主要用采用3種模型,GBDT, DNN與RNN(Seq2Seq-GRU) 模型。由于數(shù)據(jù)分布差異很大,我們對(duì)于不同城市以及不同污染物分別建模。針對(duì)時(shí)間序列問(wèn)題我們一共有 2 種建模方式,序列模型 (RNN) 是每條樣本未來(lái) 48 小時(shí)的空氣質(zhì)量為 48 個(gè)label,而常規(guī)回歸模型(GBDT/DNN)是將一條序列樣本根據(jù)預(yù)測(cè)未來(lái)的 48 小時(shí)序列數(shù)展開(kāi)為48條樣本,每條樣本預(yù)測(cè)一個(gè)狀態(tài),48 條樣本間歷史統(tǒng)計(jì)特征相同,存在二個(gè)區(qū)別:1)用hour flag標(biāo)識(shí)是第幾個(gè)樣本;2)天氣預(yù)報(bào)特征。
GBDT模型用 LightGBM 兩種模型,主要用于特征迭代。針對(duì)問(wèn)題特點(diǎn)對(duì) DNN 模型和RNNSeq2Seq-GRU 模型進(jìn)行了優(yōu)化。
DNN模型相對(duì)于 GBDT 模型有更強(qiáng)的特征交叉關(guān)系學(xué)習(xí)能力,并且可以學(xué)習(xí)到一些在訓(xùn)練集中沒(méi)有出現(xiàn)的交叉關(guān)系,下圖為 DNN 模型的結(jié)構(gòu)圖。
基于DNN模型,我們有如下調(diào)整與優(yōu)化:
對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理,計(jì)算均值和方差的時(shí)候?qū)θ笔е禃翰蛔鎏幚?/p>
標(biāo)準(zhǔn)化后進(jìn)行特征值clip,減少離群特征值對(duì)模型的影響
對(duì)缺失值填充 0,并添加缺失標(biāo)志位
使用b-swish激活函數(shù)[2],其公式為 b-swish(x) = x*sigmoid(b*x),b為可訓(xùn)練參數(shù);b-swish 擁有不飽和、光滑、非單調(diào)性的特征
參考 product neural network[3]概念以及 LSTM 中的 Gate 設(shè)計(jì),對(duì)時(shí)間與位置信息 embedding 進(jìn)行了 product 以及后面 sigmoid 激活,再與模型本身的統(tǒng)計(jì)特征進(jìn)行組合
傳統(tǒng)的回歸損失函數(shù)MSE與比賽的評(píng)分函數(shù)SMAPE有較大的差異,直接優(yōu)化MSE會(huì)導(dǎo)致與評(píng)測(cè)目標(biāo)不一致。而SMAPE在0點(diǎn)不可導(dǎo)且有臨近點(diǎn)不穩(wěn)定問(wèn)題,我們?yōu)榱酥苯觾?yōu)化SMAPE參照kaggle web traffic prediction比賽分享進(jìn)行了損失函數(shù)逼近[4],使得模型優(yōu)化與評(píng)測(cè)更一致:
epsilon = 0.1
summ = tf.maximum(tf.abs(true) + tf.abs(predicted) + epsilon, 0.5 + epsilon)
smape = tf.abs(predicted - true) / summ * 2.0
由于空氣質(zhì)量預(yù)測(cè)特征的噪音較大,神經(jīng)網(wǎng)絡(luò)相對(duì)于樹(shù)模型對(duì)于異常值更敏感,我們做了更多的數(shù)據(jù)處理(a/b/c)。并且由于傳統(tǒng)回歸模型由于基于歷史統(tǒng)計(jì)量相同,會(huì)有序列間預(yù)測(cè)值接近問(wèn)題,以及不能很好的利用其他拓?fù)浞轿坏慕y(tǒng)計(jì)信息。我們針對(duì)時(shí)間與空間概念,參考了LSTM中的 Gate,通過(guò)點(diǎn)乘與后續(xù)連接,增強(qiáng)時(shí)間/空間特征在模型中的區(qū)分度,并且相對(duì)于普通全連接網(wǎng)絡(luò)更好建模了時(shí)間/空間信息與統(tǒng)計(jì)特征的組合能力。最終結(jié)果序列間預(yù)測(cè)值方差顯著增加,提升了模型精度與相對(duì)于樹(shù)模型的模型差異性。
同時(shí),在基于時(shí)間/空間的點(diǎn)乘優(yōu)化時(shí)間序列取得增益后,我們?yōu)榱诉M(jìn)一步建模時(shí)間序列,進(jìn)行了 RNN 模型的嘗試。使用 RNN 模型的主要好處是,能夠根據(jù)上一步的模型預(yù)測(cè)信息結(jié)合當(dāng)前步的輸入特征進(jìn)行預(yù)測(cè)當(dāng)前步,并且可以對(duì)不同狀態(tài)學(xué)習(xí)不同的權(quán)重。這樣可以進(jìn)一步使得序列間結(jié)果的方差,與常規(guī)回歸建模方式形成很好的融合差異性。
下圖為RNN (Seq2Seq-GRU)模型結(jié)構(gòu):
在RNN每一步從上一步獲得預(yù)測(cè)結(jié)果,并加入到當(dāng)前時(shí)間步的輸入特征中(以天氣預(yù)報(bào)特征為主)??紤]到了模型精度以及訓(xùn)練速度,模型在 Encoder 和 Decoder 中均使用 GRU。
除采用在 DNN 模型中的 a/b/c/d/g 優(yōu)化方法,RNN 模型有如下優(yōu)化:
在 Seq2Seq 網(wǎng)絡(luò)中加入狀態(tài)間隱藏層正則項(xiàng)[5],解決模型不穩(wěn)定的問(wèn)題。
傳統(tǒng)的 Seq2Seq 模型中 decoder 的輸入信息主要來(lái)自 encoder, 由于本次任務(wù)的預(yù)測(cè)序列比較長(zhǎng),并且我們有天氣預(yù)報(bào)這種未來(lái)信息可以用,因此我們針對(duì)decoder 的每個(gè)時(shí)態(tài)設(shè)計(jì)了特定的特征 T1-T48(當(dāng)前時(shí)態(tài)的天氣預(yù)報(bào)等其他空氣質(zhì)量特征)。
Seq2Seq 模型訓(xùn)練開(kāi)銷(xiāo)大并且對(duì)于參數(shù)更敏感,我們使用 Cocob優(yōu)化器[6],結(jié)合梯度截?cái)噙M(jìn)行訓(xùn)練。主要可以通過(guò)預(yù)測(cè)學(xué)習(xí)率加快收斂速度,對(duì)迭代的速度有一定幫助,也可以少量提高模型精度。
由于我們預(yù)測(cè)序列含有 48 狀態(tài),每個(gè)狀態(tài)都依賴(lài)于之前狀態(tài)學(xué)習(xí),而空氣質(zhì)量以及天氣預(yù)報(bào)數(shù)據(jù)含有大量噪音,前面序列預(yù)測(cè)不準(zhǔn)確經(jīng)常會(huì)導(dǎo)致后面預(yù)測(cè)偏移較大,我們使用狀態(tài)間正則項(xiàng),可以使得模型更穩(wěn)定,提升模型精度。
由于未來(lái)每個(gè)狀態(tài)均有天氣預(yù)報(bào)特征,我們不同于傳統(tǒng)的 decoder,在未來(lái)時(shí)態(tài)也輸入了本狀態(tài)特征(空氣預(yù)報(bào)等特征),這樣相對(duì)于把這些特征直接輸入到 encoder 端具有更強(qiáng)的表達(dá)能力,并且可以緩解長(zhǎng)序列梯度消失等問(wèn)題。
模型融合
模型融合是算法大賽中常用的提高模型精度方法,有些比賽在競(jìng)爭(zhēng)激烈的后期用了幾十甚至上百模型。由于本次比賽賽制是每天早上 8 點(diǎn)提交,預(yù)測(cè)未來(lái) 2 天成績(jī),相對(duì)于靜態(tài)測(cè)試集更接近真實(shí)工業(yè)屆天級(jí)更新模型場(chǎng)景。為了平衡模型精度和迭代成本,我們用了 5 個(gè)基模型,融合結(jié)構(gòu)主要是 2 層 stacking 結(jié)構(gòu)[7],第1層(L1) 是基模型,主要包括 GBDT/DNN/Seq2Seq 等模型差異以及特征差異,第2層(L2) 模型 L1 模型之后的 7 天數(shù)據(jù)進(jìn)行訓(xùn)練。基于非線性模型的L2 模型有更強(qiáng)的表達(dá)能力,也是我們之前比賽最常用方案之一。
由于天氣數(shù)據(jù)噪音重等數(shù)據(jù)特點(diǎn),采用非線性模型如GBDT易引起模型過(guò)擬合。我們最終根據(jù)融合建模特點(diǎn)采用基于約束的線性模型,并且我們基于時(shí)間,地點(diǎn)等多個(gè)維度進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)不同模型在不同預(yù)測(cè)段之間的相對(duì)精度有一定差異,不同于一個(gè)整體的L2模型,我們對(duì)每一個(gè)預(yù)測(cè)小時(shí)分別求解一個(gè)L2模型,精度有進(jìn)一步提升。相對(duì)于L2在基于約束的線性模型的基礎(chǔ)上基于統(tǒng)計(jì)適當(dāng)引入非線性,取得表達(dá)能力與泛化能力的一個(gè)平衡。
下面是單模型和融合模型的結(jié)果,相對(duì)于更依賴(lài)網(wǎng)絡(luò)調(diào)優(yōu)的深度學(xué)習(xí)模型, GBDT 模型更依賴(lài)于特征工程,深度學(xué)習(xí)與樹(shù)模型本身有較強(qiáng)的差異性產(chǎn)生較大的融合增益。
空氣質(zhì)量預(yù)測(cè)問(wèn)題不同于KDD Cup 早年的一些廣告、推薦類(lèi)題目,已經(jīng)在工業(yè)屆有了大量應(yīng)用,我們的努力也是做了初步探索。我們先是從數(shù)據(jù)與特征角度出發(fā),對(duì)天氣預(yù)報(bào)做了大量特征以及添加高斯噪音都處理,同時(shí)又在時(shí)間與空間維度進(jìn)行進(jìn)一步添加特征。而單純從特征角度解決問(wèn)題也逐漸遇到瓶頸,我們進(jìn)一步運(yùn)用深度學(xué)習(xí)模型角度對(duì)時(shí)間以及空間角度進(jìn)行進(jìn)一步建模,可以與本身基于大量特征工程的樹(shù)模型有很好的補(bǔ)充,為后續(xù)融合打下很好的基礎(chǔ)。之后我們基于多個(gè)單模型優(yōu)化最終的第二層融合模型。
在比賽中做了很多嘗試,我們認(rèn)為這次過(guò)程中比較重要是基于空氣質(zhì)量問(wèn)題的理解以及找到問(wèn)題的關(guān)鍵點(diǎn),在建模過(guò)程中盡量從多方面(如特征+特征)對(duì)關(guān)鍵問(wèn)題進(jìn)行求解,從多個(gè)角度優(yōu)化到高精度的模型是最終融合模型取得效果的基礎(chǔ)與關(guān)鍵。
進(jìn)一步工作
我們?cè)鴩L試用CNN建模地理位置拓?fù)潢P(guān)系,沒(méi)有取得明顯增益,考慮到地理數(shù)據(jù)不夠充足以及時(shí)間有限放棄此嘗試,考慮到基于地理位置的特征帶來(lái)了一定的增益,地理位置的進(jìn)一步建模也是有意思的進(jìn)一步嘗試點(diǎn)。
同時(shí),在比賽中也提供了 5 年的北京歷史空氣質(zhì)量數(shù)據(jù),由于時(shí)間有限我們沒(méi)有使用,數(shù)據(jù)的增加,以及以年為單位進(jìn)行建立周期性特征也是后面的一個(gè)嘗試點(diǎn)。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132723 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1451瀏覽量
34070
原文標(biāo)題:中國(guó)團(tuán)隊(duì)兩冠一亞包攬KDD CUP三項(xiàng)大獎(jiǎng),作者親述技術(shù)細(xì)節(jié)
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論