您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

WSDM精選論文分析機(jī)器學(xué)習(xí)

大?。?/span>0.9 MB 人氣: 2017-09-30 需要積分:1

  人工智能機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級(jí)會(huì)議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場(chǎng)也很難追蹤到所有的前沿信息。在時(shí)間精力有限的情況下,選擇精讀哪些論文,學(xué)習(xí)哪些熱門(mén)技術(shù)就成為了AI學(xué)者和從業(yè)人員所頭痛的問(wèn)題。這個(gè)欄目就是要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導(dǎo)。

  數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用的頂級(jí)會(huì)議The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已經(jīng)在英國(guó)劍橋圓滿舉行。正值WSDM十周年,會(huì)議上對(duì)WSDM的發(fā)展進(jìn)行了回顧和展望??v觀過(guò)去十年的發(fā)展,WSDM已經(jīng)成長(zhǎng)為學(xué)術(shù)圈和工業(yè)界都十分倚重的經(jīng)典跨界會(huì)議。不像KDD、WWW或者SIGIR,WSDM因?yàn)閺淖铋_(kāi)始就由不少工業(yè)界的學(xué)術(shù)領(lǐng)導(dǎo)人發(fā)起并且長(zhǎng)期引領(lǐng),所以十分重視工業(yè)界的學(xué)術(shù)成果的展現(xiàn)。有不少經(jīng)典的工業(yè)界文章在過(guò)去十年里,都是通過(guò)WSDM發(fā)表的。今年也不例外,因?yàn)閃SDM的論文涵蓋非常廣泛的主題,而且一般的讀者很難從浩如煙海的文獻(xiàn)中即刻抓取到有用信息,這里筆者從80篇會(huì)議文章中精選出5篇有代表性的文章,為讀者提供思路。

  Unbiased Learning-to-Rank with Biased Feedback

  概要:這篇文章獲得了WSDM 2017最佳論文。在實(shí)際生產(chǎn)中,我們大量獲得的是 “有偏差”(Biased)的數(shù)據(jù)。那么,如何從這些 “有偏差”的數(shù)據(jù)中,進(jìn)行“無(wú)偏差”(Unbiased)的機(jī)器學(xué)習(xí)就成為了過(guò)去很長(zhǎng)一段時(shí)間以來(lái),實(shí)際生產(chǎn)中非常急迫解決的問(wèn)題。本文探討了解決這個(gè)問(wèn)題的一種思路。

  這篇文章來(lái)自康奈爾大學(xué)的Thorsten Joachims以及他的學(xué)生。Thorsten在上一個(gè)十年的學(xué)術(shù)研究中,因?yàn)殚_(kāi)發(fā)SVMLight而名聲顯赫。他也是最早思考如何利用用戶反饋數(shù)據(jù)進(jìn)行排序模型(Ranking Model)訓(xùn)練的學(xué)者。那么,這篇獲獎(jiǎng)?wù)撐闹饕且鉀Q一個(gè)什么樣的問(wèn)題?其實(shí),這篇文章要嘗試解決的問(wèn)題在學(xué)術(shù)和工業(yè)界的應(yīng)用中非常普遍,可以說(shuō)是一個(gè)困擾學(xué)者和普通的工程人員已久的問(wèn)題。那就是,如何從“有偏差”用戶反饋數(shù)據(jù)中,訓(xùn)練“無(wú)偏差”的排序模型。為什么用戶反饋數(shù)據(jù)會(huì)“有偏差”?道理很簡(jiǎn)單,用戶在和系統(tǒng)交互的時(shí)候,受到各方面因素的干擾,從而只對(duì)部分信息進(jìn)行了反饋而忽略了其他信息。比如,在搜索引擎里,因?yàn)榕虐娴囊蛩?,用戶可能僅僅對(duì)排名靠前的幾個(gè)文檔進(jìn)行查看,而徹底忽略排名靠后的所有文檔,即便這些文檔其實(shí)可能是相關(guān)的。另外一個(gè)更加常見(jiàn)的“偏差”則是由現(xiàn)在的“作業(yè)系統(tǒng)”(Production System)引起的?!白鳂I(yè)系統(tǒng)”往往根據(jù)現(xiàn)有的算法或者模型選擇出了用戶可能最偏好的少部分文檔,而大多數(shù)文檔用戶則沒(méi)有可能見(jiàn)到,和前面情況一下,即便這些文檔有可能是十分相關(guān)的。于是,用戶的反饋就受到了現(xiàn)在系統(tǒng)的影響,而后面的機(jī)器學(xué)習(xí)很有可能僅能從現(xiàn)在系統(tǒng)偏好中改進(jìn),而有可能無(wú)法提升到全局最優(yōu)的情況。傳統(tǒng)中,很多學(xué)者和從業(yè)人員已經(jīng)意識(shí)到了直接使用用戶“有偏差”反饋的數(shù)據(jù),特別是點(diǎn)擊數(shù)據(jù),會(huì)產(chǎn)生問(wèn)題。但是很長(zhǎng)一段時(shí)間來(lái),大家并沒(méi)有找到如何系統(tǒng)地解決這個(gè)問(wèn)題。Thorsten首先在這篇文章中提出了基于Inverse Propensity Scoring(IPS)的Partial-Info Learning-to-Rank。這部分內(nèi)容其實(shí)并沒(méi)有太多的新意,不過(guò)是把從Multi-armed Bandit領(lǐng)域用IPS來(lái)做Unbiased Offline Evaluation的思路借鑒過(guò)來(lái)。不過(guò)文章指出了一個(gè)核心問(wèn)題,那就是如何來(lái)估計(jì)這些Propensity Probability,其實(shí)也就是當(dāng)前系統(tǒng)選擇各個(gè)文檔的概率。傳統(tǒng)上,特別是以前的Unbiased Offline Evaluation基于隨機(jī)產(chǎn)生文檔順序,因此這些Propensity Probability都是Uniform分布的。但這樣的設(shè)計(jì)在現(xiàn)實(shí)中是不可能的,因?yàn)閁niform分布的文檔,用戶體驗(yàn)會(huì)變得很差。那么,這篇文章則是要直擊這個(gè)痛點(diǎn)。這篇文章采取了這樣一個(gè)思路,文章假設(shè)現(xiàn)在系統(tǒng)的“偏差”可以通過(guò)一個(gè)Position-based Click Model with Click Noise(PCMCN)來(lái)解釋。簡(jiǎn)單說(shuō)來(lái)PCMCN就是來(lái)對(duì)用戶查看一個(gè)排序文檔進(jìn)行建模,從而達(dá)到可以Propensity Probability能夠被方便預(yù)測(cè),這么一個(gè)目的。為了能夠PCMCN,作者們還提出了一個(gè)基于交換兩個(gè)位置文檔的實(shí)驗(yàn)方法,用于收集數(shù)據(jù)。值得肯定的是,僅僅交換兩個(gè)位置文檔的方法,相比于以前的Uniform的方法,要更加注重用戶體驗(yàn)。文章的實(shí)驗(yàn)部分展示了在人工數(shù)據(jù)以及真實(shí)系統(tǒng)中的表現(xiàn)??傮w說(shuō)來(lái),能夠?qū)Α坝衅睢钡挠脩魯?shù)據(jù)建模,比直接利用這些數(shù)據(jù),訓(xùn)練的模型效果要來(lái)的好得多。這篇文章非常值得推薦系統(tǒng)、搜索引擎等方面的研究和工程人員精讀。

  Real-Time Bidding by Reinforcement Learning in Display Advertising

  ?????

  摘要:傳統(tǒng)中,Real-Time Bidding(RTB)把Bidding考慮成為靜態(tài)的決策過(guò)程。這篇文章,則是把Reinforcement Learning(強(qiáng)化學(xué)習(xí))引入到RTB的應(yīng)用中,從而提高RTB的效率和整體效果。

  這篇文章的作者團(tuán)隊(duì)來(lái)自上海交大和倫敦大學(xué)學(xué)院(University College London)。此文是繼強(qiáng)化學(xué)習(xí)被應(yīng)用到搜索和推薦領(lǐng)域之后,又一個(gè)把強(qiáng)化學(xué)習(xí)應(yīng)用到一個(gè)重要領(lǐng)域的嘗試。與推薦和搜索不同的是,RTB因?yàn)槠鋵?shí)時(shí)性,更加講究能夠?qū)τ谝粋€(gè)決策過(guò)程進(jìn)行動(dòng)態(tài)調(diào)整,從而能夠提供最優(yōu)的解決方案。目前大多數(shù)Bidding算法或者是策略(Strategy)的核心問(wèn)題,就是他們都是靜態(tài)的一個(gè)決策過(guò)程。那么,這篇文章的主要思路就是用Markov Decision Process(MDP)來(lái)對(duì)RTB進(jìn)行建模。MDP的一般建模,需要三個(gè)必備元素,那就是State、Action和Reward。這里,State是一個(gè)(當(dāng)前時(shí)間,剩余預(yù)算,當(dāng)前Feature Vector)三元組;Action則是以State為輸入,輸出一個(gè)少于當(dāng)前預(yù)算的Bid;Reward在這篇文章里定義為在當(dāng)前Feature Vector為輸入情況下的點(diǎn)擊率(CTR)或者是0(沒(méi)有贏得Auction的情況)。MDP除了這三個(gè)要素以外,一般還需要定義從每一個(gè)狀態(tài)跳轉(zhuǎn)另外狀態(tài)的轉(zhuǎn)移概率。文章中,轉(zhuǎn)移概率是一個(gè)Feature Vector的概率分布和市場(chǎng)價(jià)格分布的一個(gè)乘積。市場(chǎng)價(jià)格分布取決于現(xiàn)在的Feature Vector和當(dāng)前的Bid價(jià)格。整個(gè)MDP的布局設(shè)置好以后,RTB的問(wèn)題就轉(zhuǎn)換成為了如何在MDP中找到最優(yōu)Action的決策問(wèn)題。和傳統(tǒng)的MDP一樣,文章介紹了通過(guò)Value Iteration的方式來(lái)找到最佳的Value函數(shù),然后通過(guò)找到的Value函數(shù),來(lái)找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規(guī)模的數(shù)據(jù)上,原因是第一個(gè)階段的得到最佳Value函數(shù)的步驟太過(guò)于耗時(shí)。文章介紹了一種在大規(guī)模數(shù)據(jù)上的思路,通過(guò)小數(shù)據(jù)來(lái)學(xué)習(xí)Value函數(shù)的表達(dá),然后應(yīng)用到大規(guī)模數(shù)據(jù)上。文章在兩個(gè)數(shù)據(jù)集上做了實(shí)驗(yàn),一個(gè)是PinYou的數(shù)據(jù),另一個(gè)是YOYI的數(shù)據(jù),數(shù)量都算是當(dāng)前比較大的RTB數(shù)據(jù)集了。從實(shí)驗(yàn)結(jié)果上來(lái)看,采用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項(xiàng)指標(biāo)。除了在這兩個(gè)數(shù)據(jù)集上的結(jié)果以外,這篇文章還在Vlion DSP的線上系統(tǒng)進(jìn)行了評(píng)測(cè),在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效??傊?,這篇文章對(duì)于希望探索強(qiáng)化學(xué)習(xí)在廣告或者是推薦以及搜索等領(lǐng)域的應(yīng)用有著一定的借鑒意義。從目前的情況來(lái)看,算法依然比較復(fù)雜,而且Value函數(shù)的逼近可能有不小的性能損失。另外,參考文獻(xiàn)部分十分詳盡,對(duì)于想了解RTB的朋友來(lái)說(shuō),是一個(gè)不可多得的言簡(jiǎn)意賅的介紹。

  Learning Sensitive Combinations of A/B Test Metrics

  摘要:在線A/B實(shí)驗(yàn)最大的困擾就是所需要觀測(cè)的指標(biāo)(Metric)常常需要很長(zhǎng)時(shí)間觀測(cè)到統(tǒng)計(jì)意義的變化抑或需要很多的用戶數(shù)量。這篇文章就是要嘗試解決這么一個(gè)問(wèn)題,探討如何通過(guò)Variance Reduction的辦法來(lái)讓尋找到的Metrics能夠更加容易觀測(cè),并且和用戶的指標(biāo)相匹配。

  這篇文章來(lái)自俄羅斯搜索引擎團(tuán)隊(duì)Yandex。近幾年以來(lái),Yandex的研究人員已經(jīng)陸續(xù)發(fā)表了一系列的文章來(lái)推動(dòng)在線A/B實(shí)驗(yàn)的研究和實(shí)踐。這篇文章是要解決什么問(wèn)題呢?在A/B在線測(cè)試中,我們希望觀測(cè)到的指標(biāo)有方向性,能夠告訴我們用戶的喜好變化;同時(shí),我們也希望這個(gè)指標(biāo)能夠很容易觀測(cè),不需要大量的數(shù)據(jù)長(zhǎng)時(shí)間觀察。文章提出了這么一個(gè)假設(shè),那就是我們能否通過(guò)數(shù)據(jù)以及歷史信息,學(xué)習(xí)到一組指標(biāo)的組合,使得這個(gè)學(xué)習(xí)到的結(jié)果滿足上述條件?Yandex通過(guò)對(duì)8個(gè)關(guān)鍵指標(biāo)的建模,使得學(xué)習(xí)到的指標(biāo)達(dá)到了3.42倍的“敏感度”(Sensitivity),相比于之前的指標(biāo)而言,也就是達(dá)到了約11倍的Sample Size的削減,可以說(shuō)效果非常顯著。那么,這篇文章的作者是如何做的呢?首先,每一個(gè)實(shí)驗(yàn)單元(可以是一個(gè)用戶,一個(gè)Session或者一個(gè)Query)都被一個(gè)Feature Vector所描述。這里的Feature Vector,有可能就是我們已知的指標(biāo)本身。那么,整個(gè)問(wèn)題的設(shè)置就成為了,學(xué)習(xí)一個(gè)這些Feature Vector的線性組合,使得學(xué)習(xí)到的新指標(biāo)對(duì)于未來(lái)的實(shí)驗(yàn),更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終采用的是通過(guò)z-score來(lái)衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實(shí)用度更加廣泛。如果來(lái)解這么一個(gè)優(yōu)化問(wèn)題就成為了文章下一個(gè)重點(diǎn)。文章簡(jiǎn)單介紹采用Geometric的方法來(lái)接這個(gè)優(yōu)化問(wèn)題的思路,并且也探討了一下這種方法和Linear Discriminant Analysis的聯(lián)系。然而作者們認(rèn)為這個(gè)思路并不適合大多數(shù)的情況,于是文章介紹了一個(gè)基于標(biāo)準(zhǔn)優(yōu)化算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量?jī)蓚€(gè)實(shí)驗(yàn)結(jié)果的“距離函數(shù)”,最終的目標(biāo)函數(shù)是包括這么三個(gè)部分:1. 盡量讓已知A/B有效果的實(shí)驗(yàn)里的距離不減少;2. 盡量讓已知的A/A實(shí)驗(yàn)的結(jié)果不變化;3. 盡量分離已知A/B實(shí)驗(yàn)效果不明顯的結(jié)果。當(dāng)然,這個(gè)目標(biāo)函數(shù)是Non-Convex的,不過(guò)文章依然使用了L-BFGS來(lái)解這個(gè)優(yōu)化問(wèn)題。從實(shí)驗(yàn)來(lái)說(shuō),作者們用了118個(gè)歷史實(shí)驗(yàn)數(shù)據(jù)來(lái)學(xué)習(xí)這個(gè)函數(shù),得到的效果都是學(xué)習(xí)到的指標(biāo)能夠更好地指導(dǎo)實(shí)驗(yàn)的結(jié)果,同時(shí)采用學(xué)習(xí)到的指標(biāo)能夠大幅度降低需要達(dá)到統(tǒng)計(jì)意義效果明顯(Statistically Significant)的數(shù)據(jù)量,這對(duì)于真實(shí)的工業(yè)環(huán)境來(lái)說(shuō)是非常有意義的方法。這篇文章建議所有工業(yè)界的讀者精讀。

  Recurrent Recommender Networks

  摘要:如何把深度學(xué)習(xí)和推薦系統(tǒng)相結(jié)合是最近一兩年來(lái)推薦系統(tǒng)領(lǐng)域?qū)W者比較關(guān)心的問(wèn)題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統(tǒng)結(jié)合的例子,在真實(shí)的數(shù)據(jù)中達(dá)到了更好的效果。

  這篇文章來(lái)自卡內(nèi)基梅隆大學(xué)Alex Smola的實(shí)驗(yàn)室以及Google研究院的Amr Ahmed,陣容可謂非常強(qiáng)大。從傳統(tǒng)的概率圖模型(Probabilistic Graphical Model)的角度來(lái)說(shuō),要想能夠?qū)r(shí)間信息(Temporal)進(jìn)行有效建模,則必須采用Sequential Monte Carlo等其他辦法。這些辦法往往計(jì)算非常復(fù)雜而且極易出錯(cuò)。所以,這篇文章希望通過(guò)RNN來(lái)幫助這樣的建模場(chǎng)景。文章希望能夠用RNN來(lái)對(duì)現(xiàn)在的觀測(cè)值以及模型參數(shù)的時(shí)間變化進(jìn)行統(tǒng)一建模。當(dāng)然,另外一個(gè)比較好的選擇就是LSTM。這篇文章采用了LSTM。有了時(shí)間的變化以后,在單一時(shí)間的Rating Prediction,則是用戶方面信息和物品(文章中采用的是電影)信息的點(diǎn)積,非常類似傳統(tǒng)的矩陣分解模式。有一個(gè)小改動(dòng)的地方來(lái)自于最后的預(yù)測(cè)結(jié)果是一個(gè)與時(shí)間有關(guān)的變化和與實(shí)踐無(wú)關(guān)變量的一個(gè)分解。這一點(diǎn)主要是為了讓不同時(shí)間段的變化都能夠被模型解釋。這樣看似簡(jiǎn)單一個(gè)模型最大的問(wèn)題其實(shí)是優(yōu)化算法,如果使用簡(jiǎn)單的Back-propagation,計(jì)算量則會(huì)很大。這篇文章采用了一個(gè)叫Subspace Descent的方法,使得優(yōu)化算法本身能夠比較便捷。在實(shí)驗(yàn)中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的數(shù)據(jù)集上都有顯著的提高。當(dāng)然,從比較大的角度來(lái)看,這篇文章的意義其實(shí)非常有限,主要是最近類似思路的文章其實(shí)已經(jīng)有不少,并且從學(xué)術(shù)貢獻(xiàn)來(lái)看,這篇文章完全解答了如何用深度學(xué)習(xí)和推薦系統(tǒng)結(jié)合的更佳的根本問(wèn)題,適合熟悉推薦系統(tǒng)的讀者快速閱讀。

  Learning from User Interactions in Personal Search via Attribute Parameterization

  摘要:傳統(tǒng)的基于機(jī)器學(xué)習(xí)的排序模型訓(xùn)練都是依賴于從大量的用戶數(shù)據(jù)得到訓(xùn)練數(shù)據(jù)。而這篇文章要解決一個(gè)比較極致的問(wèn)題,那就是如果模型需要應(yīng)用到一個(gè)用戶的時(shí)候,如何采集有效的訓(xùn)練數(shù)據(jù)并且訓(xùn)練一個(gè)有效的模型。

  這篇文章來(lái)自Google的個(gè)人搜索團(tuán)隊(duì),所有作者都是信息檢索界響當(dāng)當(dāng)?shù)膶W(xué)者。Marc Najork之前來(lái)自微軟硅谷研究院,曾是《ACM Transaction on Web》的主編。微軟硅谷研究院解散之后來(lái)到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是信息檢索界大牛W. Bruce Croft的得意門(mén)生。這篇文章是要解決所謂個(gè)人搜索(Personal Search)的問(wèn)題。個(gè)人搜索,顧名思義,也就是對(duì)個(gè)人的文檔進(jìn)行搜索(比如電子郵件、文本文件、圖片、資料等)。由于這樣特殊的產(chǎn)品需求,傳統(tǒng)的很多方法都不能夠直接適用。另外一個(gè)特殊的需求是,由于涉及到用戶的個(gè)人隱私,不能夠盲目把不同用戶的信息交互到一起。要解決這些問(wèn)題,這篇文章提供了這樣一個(gè)基本思路,那就是把用戶的Query以及文檔都映射到一個(gè)Attribute的空間。在這個(gè)空間里,所有的信息都可以跨用戶橫向比較。那么,下面的問(wèn)題就是我們?nèi)绾伟堰@些信息給映射到這個(gè)Attribute的空間。作者們采用了構(gòu)建一個(gè)圖(Graph)的做法。在這個(gè)圖上有四個(gè)類型的節(jié)點(diǎn):文檔、Query、文檔的Attribute和Query的Attribute。兩種節(jié)點(diǎn)之間的鏈接是通過(guò)Feature Function來(lái)定義的。這一點(diǎn)很像Markov Random Field的構(gòu)建。這也難怪作者之一的Donald Metzler曾經(jīng)是提倡使用這類模型的主要推手。在定義Feature Graph之后,作者們提出了兩種思路來(lái)使用Feature Graph,一種就是直接用機(jī)器學(xué)習(xí)的方法;另一種則是手工方法和機(jī)器學(xué)習(xí)方法的混合。這篇文章采用了第二種方法,因?yàn)檫@樣在一個(gè)生產(chǎn)系統(tǒng)中可能更加穩(wěn)定。從整體上來(lái)看,整個(gè)技術(shù)層面并不復(fù)雜,不過(guò)這里的思路相對(duì)來(lái)說(shuō)比較新穎。同時(shí),作者還提到了如何從點(diǎn)擊數(shù)據(jù)中提取有效的訓(xùn)練數(shù)據(jù)。在最后的實(shí)驗(yàn)方面,作者們展示了提出的這種方法的有效性。不過(guò),值得一提的是,因?yàn)閿?shù)據(jù)集和整個(gè)問(wèn)題的特殊性,這篇文章并沒(méi)法和很多其他方法進(jìn)行公

  人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)論文汗牛充棟。每年的各大頂級(jí)會(huì)議、研討班錄用好幾千篇論文,即便是親臨現(xiàn)場(chǎng)也很難追蹤到所有的前沿信息。在時(shí)間精力有限的情況下,選擇精讀哪些論文,學(xué)習(xí)哪些熱門(mén)技術(shù)就成為了AI學(xué)者和從業(yè)人員所頭痛的問(wèn)題。這個(gè)欄目就是要幫助大家篩選出有意思的論文,解讀出論文的核心思想,為精讀提供閱讀指導(dǎo)。

  數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用的頂級(jí)會(huì)議The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已經(jīng)在英國(guó)劍橋圓滿舉行。正值WSDM十周年,會(huì)議上對(duì)WSDM的發(fā)展進(jìn)行了回顧和展望。縱觀過(guò)去十年的發(fā)展,WSDM已經(jīng)成長(zhǎng)為學(xué)術(shù)圈和工業(yè)界都十分倚重的經(jīng)典跨界會(huì)議。不像KDD、WWW或者SIGIR,WSDM因?yàn)閺淖铋_(kāi)始就由不少工業(yè)界的學(xué)術(shù)領(lǐng)導(dǎo)人發(fā)起并且長(zhǎng)期引領(lǐng),所以十分重視工業(yè)界的學(xué)術(shù)成果的展現(xiàn)。有不少經(jīng)典的工業(yè)界文章在過(guò)去十年里,都是通過(guò)WSDM發(fā)表的。今年也不例外,因?yàn)閃SDM的論文涵蓋非常廣泛的主題,而且一般的讀者很難從浩如煙海的文獻(xiàn)中即刻抓取到有用信息,這里筆者從80篇會(huì)議文章中精選出5篇有代表性的文章,為讀者提供思路。

  Unbiased Learning-to-Rank with Biased Feedback

  概要:這篇文章獲得了WSDM 2017最佳論文。在實(shí)際生產(chǎn)中,我們大量獲得的是 “有偏差”(Biased)的數(shù)據(jù)。那么,如何從這些 “有偏差”的數(shù)據(jù)中,進(jìn)行“無(wú)偏差”(Unbiased)的機(jī)器學(xué)習(xí)就成為了過(guò)去很長(zhǎng)一段時(shí)間以來(lái),實(shí)際生產(chǎn)中非常急迫解決的問(wèn)題。本文探討了解決這個(gè)問(wèn)題的一種思路。

  這篇文章來(lái)自康奈爾大學(xué)的Thorsten Joachims以及他的學(xué)生。Thorsten在上一個(gè)十年的學(xué)術(shù)研究中,因?yàn)殚_(kāi)發(fā)SVMLight而名聲顯赫。他也是最早思考如何利用用戶反饋數(shù)據(jù)進(jìn)行排序模型(Ranking Model)訓(xùn)練的學(xué)者。那么,這篇獲獎(jiǎng)?wù)撐闹饕且鉀Q一個(gè)什么樣的問(wèn)題?其實(shí),這篇文章要嘗試解決的問(wèn)題在學(xué)術(shù)和工業(yè)界的應(yīng)用中非常普遍,可以說(shuō)是一個(gè)困擾學(xué)者和普通的工程人員已久的問(wèn)題。那就是,如何從“有偏差”用戶反饋數(shù)據(jù)中,訓(xùn)練“無(wú)偏差”的排序模型。為什么用戶反饋數(shù)據(jù)會(huì)“有偏差”?道理很簡(jiǎn)單,用戶在和系統(tǒng)交互的時(shí)候,受到各方面因素的干擾,從而只對(duì)部分信息進(jìn)行了反饋而忽略了其他信息。比如,在搜索引擎里,因?yàn)榕虐娴囊蛩?,用戶可能僅僅對(duì)排名靠前的幾個(gè)文檔進(jìn)行查看,而徹底忽略排名靠后的所有文檔,即便這些文檔其實(shí)可能是相關(guān)的。另外一個(gè)更加常見(jiàn)的“偏差”則是由現(xiàn)在的“作業(yè)系統(tǒng)”(Production System)引起的。“作業(yè)系統(tǒng)”往往根據(jù)現(xiàn)有的算法或者模型選擇出了用戶可能最偏好的少部分文檔,而大多數(shù)文檔用戶則沒(méi)有可能見(jiàn)到,和前面情況一下,即便這些文檔有可能是十分相關(guān)的。于是,用戶的反饋就受到了現(xiàn)在系統(tǒng)的影響,而后面的機(jī)器學(xué)習(xí)很有可能僅能從現(xiàn)在系統(tǒng)偏好中改進(jìn),而有可能無(wú)法提升到全局最優(yōu)的情況。傳統(tǒng)中,很多學(xué)者和從業(yè)人員已經(jīng)意識(shí)到了直接使用用戶“有偏差”反饋的數(shù)據(jù),特別是點(diǎn)擊數(shù)據(jù),會(huì)產(chǎn)生問(wèn)題。但是很長(zhǎng)一段時(shí)間來(lái),大家并沒(méi)有找到如何系統(tǒng)地解決這個(gè)問(wèn)題。Thorsten首先在這篇文章中提出了基于Inverse Propensity Scoring(IPS)的Partial-Info Learning-to-Rank。這部分內(nèi)容其實(shí)并沒(méi)有太多的新意,不過(guò)是把從Multi-armed Bandit領(lǐng)域用IPS來(lái)做Unbiased Offline Evaluation的思路借鑒過(guò)來(lái)。不過(guò)文章指出了一個(gè)核心問(wèn)題,那就是如何來(lái)估計(jì)這些Propensity Probability,其實(shí)也就是當(dāng)前系統(tǒng)選擇各個(gè)文檔的概率。傳統(tǒng)上,特別是以前的Unbiased Offline Evaluation基于隨機(jī)產(chǎn)生文檔順序,因此這些Propensity Probability都是Uniform分布的。但這樣的設(shè)計(jì)在現(xiàn)實(shí)中是不可能的,因?yàn)閁niform分布的文檔,用戶體驗(yàn)會(huì)變得很差。那么,這篇文章則是要直擊這個(gè)痛點(diǎn)。這篇文章采取了這樣一個(gè)思路,文章假設(shè)現(xiàn)在系統(tǒng)的“偏差”可以通過(guò)一個(gè)Position-based Click Model with Click Noise(PCMCN)來(lái)解釋。簡(jiǎn)單說(shuō)來(lái)PCMCN就是來(lái)對(duì)用戶查看一個(gè)排序文檔進(jìn)行建模,從而達(dá)到可以Propensity Probability能夠被方便預(yù)測(cè),這么一個(gè)目的。為了能夠PCMCN,作者們還提出了一個(gè)基于交換兩個(gè)位置文檔的實(shí)驗(yàn)方法,用于收集數(shù)據(jù)。值得肯定的是,僅僅交換兩個(gè)位置文檔的方法,相比于以前的Uniform的方法,要更加注重用戶體驗(yàn)。文章的實(shí)驗(yàn)部分展示了在人工數(shù)據(jù)以及真實(shí)系統(tǒng)中的表現(xiàn)??傮w說(shuō)來(lái),能夠?qū)Α坝衅睢钡挠脩魯?shù)據(jù)建模,比直接利用這些數(shù)據(jù),訓(xùn)練的模型效果要來(lái)的好得多。這篇文章非常值得推薦系統(tǒng)、搜索引擎等方面的研究和工程人員精讀。

  Real-Time Bidding by Reinforcement Learning in Display Advertising

  ?????

  摘要:傳統(tǒng)中,Real-Time Bidding(RTB)把Bidding考慮成為靜態(tài)的決策過(guò)程。這篇文章,則是把Reinforcement Learning(強(qiáng)化學(xué)習(xí))引入到RTB的應(yīng)用中,從而提高RTB的效率和整體效果。

  這篇文章的作者團(tuán)隊(duì)來(lái)自上海交大和倫敦大學(xué)學(xué)院(University College London)。此文是繼強(qiáng)化學(xué)習(xí)被應(yīng)用到搜索和推薦領(lǐng)域之后,又一個(gè)把強(qiáng)化學(xué)習(xí)應(yīng)用到一個(gè)重要領(lǐng)域的嘗試。與推薦和搜索不同的是,RTB因?yàn)槠鋵?shí)時(shí)性,更加講究能夠?qū)τ谝粋€(gè)決策過(guò)程進(jìn)行動(dòng)態(tài)調(diào)整,從而能夠提供最優(yōu)的解決方案。目前大多數(shù)Bidding算法或者是策略(Strategy)的核心問(wèn)題,就是他們都是靜態(tài)的一個(gè)決策過(guò)程。那么,這篇文章的主要思路就是用Markov Decision Process(MDP)來(lái)對(duì)RTB進(jìn)行建模。MDP的一般建模,需要三個(gè)必備元素,那就是State、Action和Reward。這里,State是一個(gè)(當(dāng)前時(shí)間,剩余預(yù)算,當(dāng)前Feature Vector)三元組;Action則是以State為輸入,輸出一個(gè)少于當(dāng)前預(yù)算的Bid;Reward在這篇文章里定義為在當(dāng)前Feature Vector為輸入情況下的點(diǎn)擊率(CTR)或者是0(沒(méi)有贏得Auction的情況)。MDP除了這三個(gè)要素以外,一般還需要定義從每一個(gè)狀態(tài)跳轉(zhuǎn)另外狀態(tài)的轉(zhuǎn)移概率。文章中,轉(zhuǎn)移概率是一個(gè)Feature Vector的概率分布和市場(chǎng)價(jià)格分布的一個(gè)乘積。市場(chǎng)價(jià)格分布取決于現(xiàn)在的Feature Vector和當(dāng)前的Bid價(jià)格。整個(gè)MDP的布局設(shè)置好以后,RTB的問(wèn)題就轉(zhuǎn)換成為了如何在MDP中找到最優(yōu)Action的決策問(wèn)題。和傳統(tǒng)的MDP一樣,文章介紹了通過(guò)Value Iteration的方式來(lái)找到最佳的Value函數(shù),然后通過(guò)找到的Value函數(shù),來(lái)找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規(guī)模的數(shù)據(jù)上,原因是第一個(gè)階段的得到最佳Value函數(shù)的步驟太過(guò)于耗時(shí)。文章介紹了一種在大規(guī)模數(shù)據(jù)上的思路,通過(guò)小數(shù)據(jù)來(lái)學(xué)習(xí)Value函數(shù)的表達(dá),然后應(yīng)用到大規(guī)模數(shù)據(jù)上。文章在兩個(gè)數(shù)據(jù)集上做了實(shí)驗(yàn),一個(gè)是PinYou的數(shù)據(jù),另一個(gè)是YOYI的數(shù)據(jù),數(shù)量都算是當(dāng)前比較大的RTB數(shù)據(jù)集了。從實(shí)驗(yàn)結(jié)果上來(lái)看,采用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項(xiàng)指標(biāo)。除了在這兩個(gè)數(shù)據(jù)集上的結(jié)果以外,這篇文章還在Vlion DSP的線上系統(tǒng)進(jìn)行了評(píng)測(cè),在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效??傊?,這篇文章對(duì)于希望探索強(qiáng)化學(xué)習(xí)在廣告或者是推薦以及搜索等領(lǐng)域的應(yīng)用有著一定的借鑒意義。從目前的情況來(lái)看,算法依然比較復(fù)雜,而且Value函數(shù)的逼近可能有不小的性能損失。另外,參考文獻(xiàn)部分十分詳盡,對(duì)于想了解RTB的朋友來(lái)說(shuō),是一個(gè)不可多得的言簡(jiǎn)意賅的介紹。

  Learning Sensitive Combinations of A/B Test Metrics

  摘要:在線A/B實(shí)驗(yàn)最大的困擾就是所需要觀測(cè)的指標(biāo)(Metric)常常需要很長(zhǎng)時(shí)間觀測(cè)到統(tǒng)計(jì)意義的變化抑或需要很多的用戶數(shù)量。這篇文章就是要嘗試解決這么一個(gè)問(wèn)題,探討如何通過(guò)Variance Reduction的辦法來(lái)讓尋找到的Metrics能夠更加容易觀測(cè),并且和用戶的指標(biāo)相匹配。

  這篇文章來(lái)自俄羅斯搜索引擎團(tuán)隊(duì)Yandex。近幾年以來(lái),Yandex的研究人員已經(jīng)陸續(xù)發(fā)表了一系列的文章來(lái)推動(dòng)在線A/B實(shí)驗(yàn)的研究和實(shí)踐。這篇文章是要解決什么問(wèn)題呢?在A/B在線測(cè)試中,我們希望觀測(cè)到的指標(biāo)有方向性,能夠告訴我們用戶的喜好變化;同時(shí),我們也希望這個(gè)指標(biāo)能夠很容易觀測(cè),不需要大量的數(shù)據(jù)長(zhǎng)時(shí)間觀察。文章提出了這么一個(gè)假設(shè),那就是我們能否通過(guò)數(shù)據(jù)以及歷史信息,學(xué)習(xí)到一組指標(biāo)的組合,使得這個(gè)學(xué)習(xí)到的結(jié)果滿足上述條件?Yandex通過(guò)對(duì)8個(gè)關(guān)鍵指標(biāo)的建模,使得學(xué)習(xí)到的指標(biāo)達(dá)到了3.42倍的“敏感度”(Sensitivity),相比于之前的指標(biāo)而言,也就是達(dá)到了約11倍的Sample Size的削減,可以說(shuō)效果非常顯著。那么,這篇文章的作者是如何做的呢?首先,每一個(gè)實(shí)驗(yàn)單元(可以是一個(gè)用戶,一個(gè)Session或者一個(gè)Query)都被一個(gè)Feature Vector所描述。這里的Feature Vector,有可能就是我們已知的指標(biāo)本身。那么,整個(gè)問(wèn)題的設(shè)置就成為了,學(xué)習(xí)一個(gè)這些Feature Vector的線性組合,使得學(xué)習(xí)到的新指標(biāo)對(duì)于未來(lái)的實(shí)驗(yàn),更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終采用的是通過(guò)z-score來(lái)衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實(shí)用度更加廣泛。如果來(lái)解這么一個(gè)優(yōu)化問(wèn)題就成為了文章下一個(gè)重點(diǎn)。文章簡(jiǎn)單介紹采用Geometric的方法來(lái)接這個(gè)優(yōu)化問(wèn)題的思路,并且也探討了一下這種方法和Linear Discriminant Analysis的聯(lián)系。然而作者們認(rèn)為這個(gè)思路并不適合大多數(shù)的情況,于是文章介紹了一個(gè)基于標(biāo)準(zhǔn)優(yōu)化算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量?jī)蓚€(gè)實(shí)驗(yàn)結(jié)果的“距離函數(shù)”,最終的目標(biāo)函數(shù)是包括這么三個(gè)部分:1. 盡量讓已知A/B有效果的實(shí)驗(yàn)里的距離不減少;2. 盡量讓已知的A/A實(shí)驗(yàn)的結(jié)果不變化;3. 盡量分離已知A/B實(shí)驗(yàn)效果不明顯的結(jié)果。當(dāng)然,這個(gè)目標(biāo)函數(shù)是Non-Convex的,不過(guò)文章依然使用了L-BFGS來(lái)解這個(gè)優(yōu)化問(wèn)題。從實(shí)驗(yàn)來(lái)說(shuō),作者們用了118個(gè)歷史實(shí)驗(yàn)數(shù)據(jù)來(lái)學(xué)習(xí)這個(gè)函數(shù),得到的效果都是學(xué)習(xí)到的指標(biāo)能夠更好地指導(dǎo)實(shí)驗(yàn)的結(jié)果,同時(shí)采用學(xué)習(xí)到的指標(biāo)能夠大幅度降低需要達(dá)到統(tǒng)計(jì)意義效果明顯(Statistically Significant)的數(shù)據(jù)量,這對(duì)于真實(shí)的工業(yè)環(huán)境來(lái)說(shuō)是非常有意義的方法。這篇文章建議所有工業(yè)界的讀者精讀。

  Recurrent Recommender Networks

  摘要:如何把深度學(xué)習(xí)和推薦系統(tǒng)相結(jié)合是最近一兩年來(lái)推薦系統(tǒng)領(lǐng)域?qū)W者比較關(guān)心的問(wèn)題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統(tǒng)結(jié)合的例子,在真實(shí)的數(shù)據(jù)中達(dá)到了更好的效果。

  這篇文章來(lái)自卡內(nèi)基梅隆大學(xué)Alex Smola的實(shí)驗(yàn)室以及Google研究院的Amr Ahmed,陣容可謂非常強(qiáng)大。從傳統(tǒng)的概率圖模型(Probabilistic Graphical Model)的角度來(lái)說(shuō),要想能夠?qū)r(shí)間信息(Temporal)進(jìn)行有效建模,則必須采用Sequential Monte Carlo等其他辦法。這些辦法往往計(jì)算非常復(fù)雜而且極易出錯(cuò)。所以,這篇文章希望通過(guò)RNN來(lái)幫助這樣的建模場(chǎng)景。文章希望能夠用RNN來(lái)對(duì)現(xiàn)在的觀測(cè)值以及模型參數(shù)的時(shí)間變化進(jìn)行統(tǒng)一建模。當(dāng)然,另外一個(gè)比較好的選擇就是LSTM。這篇文章采用了LSTM。有了時(shí)間的變化以后,在單一時(shí)間的Rating Prediction,則是用戶方面信息和物品(文章中采用的是電影)信息的點(diǎn)積,非常類似傳統(tǒng)的矩陣分解模式。有一個(gè)小改動(dòng)的地方來(lái)自于最后的預(yù)測(cè)結(jié)果是一個(gè)與時(shí)間有關(guān)的變化和與實(shí)踐無(wú)關(guān)變量的一個(gè)分解。這一點(diǎn)主要是為了讓不同時(shí)間段的變化都能夠被模型解釋。這樣看似簡(jiǎn)單一個(gè)模型最大的問(wèn)題其實(shí)是優(yōu)化算法,如果使用簡(jiǎn)單的Back-propagation,計(jì)算量則會(huì)很大。這篇文章采用了一個(gè)叫Subspace Descent的方法,使得優(yōu)化算法本身能夠比較便捷。在實(shí)驗(yàn)中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的數(shù)據(jù)集上都有顯著的提高。當(dāng)然,從比較大的角度來(lái)看,這篇文章的意義其實(shí)非常有限,主要是最近類似思路的文章其實(shí)已經(jīng)有不少,并且從學(xué)術(shù)貢獻(xiàn)來(lái)看,這篇文章完全解答了如何用深度學(xué)習(xí)和推薦系統(tǒng)結(jié)合的更佳的根本問(wèn)題,適合熟悉推薦系統(tǒng)的讀者快速閱讀。

  Learning from User Interactions in Personal Search via Attribute Parameterization

  摘要:傳統(tǒng)的基于機(jī)器學(xué)習(xí)的排序模型訓(xùn)練都是依賴于從大量的用戶數(shù)據(jù)得到訓(xùn)練數(shù)據(jù)。而這篇文章要解決一個(gè)比較極致的問(wèn)題,那就是如果模型需要應(yīng)用到一個(gè)用戶的時(shí)候,如何采集有效的訓(xùn)練數(shù)據(jù)并且訓(xùn)練一個(gè)有效的模型。

  這篇文章來(lái)自Google的個(gè)人搜索團(tuán)隊(duì),所有作者都是信息檢索界響當(dāng)當(dāng)?shù)膶W(xué)者。Marc Najork之前來(lái)自微軟硅谷研究院,曾是《ACM Transaction on Web》的主編。微軟硅谷研究院解散之后來(lái)到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是信息檢索界大牛W. Bruce Croft的得意門(mén)生。這篇文章是要解決所謂個(gè)人搜索(Personal Search)的問(wèn)題。個(gè)人搜索,顧名思義,也就是對(duì)個(gè)人的文檔進(jìn)行搜索(比如電子郵件、文本文件、圖片、資料等)。由于這樣特殊的產(chǎn)品需求,傳統(tǒng)的很多方法都不能夠直接適用。另外一個(gè)特殊的需求是,由于涉及到用戶的個(gè)人隱私,不能夠盲目把不同用戶的信息交互到一起。要解決這些問(wèn)題,這篇文章提供了這樣一個(gè)基本思路,那就是把用戶的Query以及文檔都映射到一個(gè)Attribute的空間。在這個(gè)空間里,所有的信息都可以跨用戶橫向比較。那么,下面的問(wèn)題就是我們?nèi)绾伟堰@些信息給映射到這個(gè)Attribute的空間。作者們采用了構(gòu)建一個(gè)圖(Graph)的做法。在這個(gè)圖上有四個(gè)類型的節(jié)點(diǎn):文檔、Query、文檔的Attribute和Query的Attribute。兩種節(jié)點(diǎn)之間的鏈接是通過(guò)Feature Function來(lái)定義的。這一點(diǎn)很像Markov Random Field的構(gòu)建。這也難怪作者之一的Donald Metzler曾經(jīng)是提倡使用這類模型的主要推手。在定義Feature Graph之后,作者們提出了兩種思路來(lái)使用Feature Graph,一種就是直接用機(jī)器學(xué)習(xí)的方法;另一種則是手工方法和機(jī)器學(xué)習(xí)方法的混合。這篇文章采用了第二種方法,因?yàn)檫@樣在一個(gè)生產(chǎn)系統(tǒng)中可能更加穩(wěn)定。從整體上來(lái)看,整個(gè)技術(shù)層面并不復(fù)雜,不過(guò)這里的思路相對(duì)來(lái)說(shuō)比較新穎。同時(shí),作者還提到了如何從點(diǎn)擊數(shù)據(jù)中提取有效的訓(xùn)練數(shù)據(jù)。在最后的實(shí)驗(yàn)方面,作者們展示了提出的這種方法的有效性。不過(guò),值得一提的是,因?yàn)閿?shù)據(jù)集和整個(gè)問(wèn)題的特殊性,這篇文章并沒(méi)法和很多其他方法進(jìn)行公平比較。所以,文章值得對(duì)搜索和信息檢索研究有興趣的讀者泛讀。

  平比較。所以,文章值得對(duì)搜索和信息檢索研究有興趣的讀者泛讀。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?