0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

推薦系統(tǒng)是什么?如何構(gòu)建一個推薦系統(tǒng)?推薦系統(tǒng)與AI有什么關(guān)系?

Linux愛好者 ? 來源:未知 ? 作者:易水寒 ? 2018-09-09 11:16 ? 次閱讀

許多人把推薦系統(tǒng)視為一種神秘的存在,他們覺得推薦系統(tǒng)似乎知道我們的想法是什么。Netflix 向我們推薦電影,還有亞馬遜向我們推薦該買什么樣的商品。推薦系統(tǒng)從早期發(fā)展到現(xiàn)在,已經(jīng)得到了很大的改進和完善,以不斷地提高用戶體驗。盡管推薦系統(tǒng)中許多都是非常復(fù)雜的系統(tǒng),但其背后的基本思想依然十分簡單。

推薦系統(tǒng)是什么?

推薦系統(tǒng)是信息過濾系統(tǒng)的一個子類,它根據(jù)用戶的偏好和行為,來向用戶呈現(xiàn)他(或她)可能感興趣的物品。推薦系統(tǒng)會嘗試去預(yù)測你對一個物品的喜好,以此向你推薦一個你很有可能會喜歡的物品。

如何構(gòu)建一個推薦系統(tǒng)?

現(xiàn)在已經(jīng)有很多種技術(shù)來建立一個推薦系統(tǒng)了,我選擇向你們介紹其中最簡單,也是最常用的三種。他們是:一,協(xié)同過濾;二,基于內(nèi)容的推薦系統(tǒng);三,基于知識的推薦系統(tǒng)。我會解釋前面的每個系統(tǒng)相關(guān)的弱點,潛在的缺陷,以及如何去避免它們。最后,我在文章末尾為你們準(zhǔn)備了一個推薦系統(tǒng)的完整實現(xiàn)。

協(xié)同過濾

協(xié)同過濾,是首次被用于推薦系統(tǒng)上的技術(shù),至今仍是最簡單且最有效的。協(xié)同過濾的過程分為這三步:一開始,收集用戶信息,然后以此生成矩陣來計算用戶關(guān)聯(lián),最后作出高可信度的推薦。這種技術(shù)分為兩大類:一種基于用戶,另一種則是基于組成環(huán)境的物品。

基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾本質(zhì)上是尋找與我們的目標(biāo)用戶具有相似品味的用戶。如果Jean-Pierre和Jason曾對幾部電影給出了相似的評分,那么我們認(rèn)為他們就是相似的用戶,接著我們就可以使用Jean Pierre的評分來預(yù)測Jason的未知評分。例如,如果Jean-Pierre喜歡星球大戰(zhàn)3:絕地武士歸來和星球大戰(zhàn)5:帝國反擊戰(zhàn),Jason也喜歡絕地武士歸來,那么帝國反擊戰(zhàn)對Jason來說是就是一個很好的推薦。一般來說,你只需要一小部分與Jason相似的用戶來預(yù)測他的評價。

在下表中,每行代表一個用戶,每列代表一部電影,只需簡單地查找這個矩陣中行之間的相似度,就可以找到相似的用戶了。

然而,基于用戶的協(xié)同過濾在實現(xiàn)中存在一些以下問題:

用戶偏好會隨時間的推移而改變,推薦系統(tǒng)生成的許多推薦可能會隨之變得過時。

用戶的數(shù)量越多,生成推薦的時間就越長。

基于用戶會導(dǎo)致對托攻擊敏感,這種攻擊方法是指惡意人員通過繞過推薦系統(tǒng),使得特定物品的排名高于其他物品。(托攻擊即Shilling Attack,是一種針對協(xié)同過濾根據(jù)近鄰偏好產(chǎn)生推薦的特點,惡意注入偽造的用戶模型,推高或打壓目標(biāo)排名,從而達(dá)到改變推薦系統(tǒng)結(jié)果的攻擊方式)

基于物品的協(xié)同過濾

基于物品的協(xié)同過濾過程很簡單。兩個物品的相似性基于用戶給出的評分來算出。讓我們回到Jean-Pierre與Jason的例子,他們兩人都喜歡“絕地武士歸來”和“帝國反擊戰(zhàn)”。 因此,我們可以推斷,喜歡第一部電影的大多數(shù)用戶也可能會喜歡第二部電影。所以,對于喜歡“絕地武士歸來”的第三個人Larry來說,”帝國反擊戰(zhàn)“的推薦將是有意義的。

所以,這里的相似度是根據(jù)列而不是行來計算的(與上面的用戶-電影矩陣中所見的不同)?;谖锲返膮f(xié)同過濾常常受到青睞,因為它沒有任何基于用戶的協(xié)同過濾的缺點。首先,系統(tǒng)中的物品(在這個例子中物品就是電影)不會隨著時間的推移而改變,所以推薦會越來越具有關(guān)聯(lián)性。此外,通常推薦系統(tǒng)中的物品都會比用戶少,這減少了推薦的處理時間。最后,考慮到?jīng)]有用戶能夠改變系統(tǒng)中的物品,這種系統(tǒng)要更難于被欺騙或攻擊。

基于內(nèi)容的推薦系統(tǒng)

在基于內(nèi)容的推薦系統(tǒng)中,元素的描述性屬性被用來構(gòu)成推薦?!皟?nèi)容Content”一詞指的就是這些描述。舉個例子,根據(jù)Sophie的聽歌歷史,推薦系統(tǒng)注意到她似乎喜歡鄉(xiāng)村音樂。因此,系統(tǒng)可以推薦相同或相似類型的歌曲。更復(fù)雜的推薦系統(tǒng)能夠發(fā)現(xiàn)多個屬性之間的關(guān)系,從而產(chǎn)生更高質(zhì)量的推薦。例如,音樂基因組計劃(Music Genome Project)根據(jù)450個不同的屬性將數(shù)據(jù)庫中的每支歌曲進行分類。該項目為Pandor的歌曲推薦提供技術(shù)支持。(Pandor提供在線音樂流媒體服務(wù),類似Spolify)

基于知識的推薦系統(tǒng)

基于知識的推薦系統(tǒng)在物品購買頻率很低的情況下特別適用。例如房屋、汽車、金融服務(wù)甚至是昂貴的奢侈品。在這種情況下,推薦的過程中常常缺乏商品的評價。基于知識的推薦系統(tǒng)不使用評價來作出推薦。相反,推薦過程是基于顧客的需求和商品描述之間的相似度,或是對特定用戶的需求使用約束來進行的。這使得這種類型的系統(tǒng)是獨一無二的,因為它允許顧客明確地指定他們想要什么。關(guān)于約束,當(dāng)應(yīng)用時,它們大多是由該領(lǐng)域的專家實施的,這些專家從一開始就知道該如何實施這些約束。例如,當(dāng)用戶明確指出在一個特定的價格范圍內(nèi)尋找一個家庭住宅時,系統(tǒng)必須考慮到這個用戶規(guī)定的約束。

推薦系統(tǒng)中的冷啟動問題

推薦系統(tǒng)中的主要問題之一是最初可用的評價數(shù)量相對較小。當(dāng)新用戶還沒有給電影打分,或者一部新的電影被添加到系統(tǒng)中時,我們該怎么做呢?在這種情況下,應(yīng)用傳統(tǒng)的協(xié)同過濾模型會更加困難。盡管基于內(nèi)容和基于知識的推薦算法在面臨冷啟動問題時比協(xié)同過濾更具有魯棒性,但基于內(nèi)容和基于知識并不總是可用的。因此,一些新方法,比如混合系統(tǒng),已經(jīng)被設(shè)計出用來解決這個問題了。

混合推薦系統(tǒng)

文章到目前為止所介紹的不同類型的推薦系統(tǒng)都各有優(yōu)劣,他們根據(jù)不同的數(shù)據(jù)給出推薦。 一些推薦系統(tǒng),如基于知識的推薦系統(tǒng),在數(shù)據(jù)量有限的冷啟動環(huán)境下最為有效。其他系統(tǒng),如協(xié)同過濾,在有大量數(shù)據(jù)可用時則更加有效。在多數(shù)情況下,數(shù)據(jù)都是多樣化的,我們可以為同一任務(wù)靈活采用多種方法。 因此,我們可以結(jié)合多種不同技術(shù)的推薦來提高整個系統(tǒng)的推薦質(zhì)量。許多的組合性技術(shù)已經(jīng)被探索出來了,包括:

加權(quán):為推薦系統(tǒng)中的每種算法都賦予不同的權(quán)重,使得推薦偏向某種算法

交叉:將所有的推薦結(jié)果集合在一起展現(xiàn),沒有偏重

增強:一個系統(tǒng)的推薦將作為下一個系統(tǒng)的輸入,循環(huán)直至最后一個系統(tǒng)為止

切換:隨機選擇一種推薦方法

混合推薦系統(tǒng)中的一個最有名的例子是于2006至2009年舉行的Netflix Price算法競賽。這個競賽的目標(biāo)是將Netflix的電影推薦系統(tǒng)Cinematch的算法準(zhǔn)確率提高至少10%。Bellkor’s Pragmatix Chaos團隊用一種融合了107種不同算法的方案將Cinematch系統(tǒng)的推薦準(zhǔn)確率提高了10.06%,并最終獲得了100萬美元獎金。你可能會對這個例子中的準(zhǔn)確率感到好奇,準(zhǔn)確率其實就是對電影的預(yù)測評分與實際評分接近程度的度量。

推薦系統(tǒng)與AI

推薦系統(tǒng)常用于人工智能領(lǐng)域。推薦系統(tǒng)的能力 – 洞察力,預(yù)測事件的能力和突出關(guān)聯(lián)的能力常被用于人工智能中。另一方面,機器學(xué)習(xí)技術(shù)常被用于實現(xiàn)推薦系統(tǒng)。例如,在Arcbees,我們使用了神經(jīng)網(wǎng)絡(luò)和來自IMdB的數(shù)據(jù)成功建立了一個電影評分預(yù)測系統(tǒng)。神經(jīng)網(wǎng)絡(luò)可以快速地執(zhí)行復(fù)雜的任務(wù)并輕松地處理大量數(shù)據(jù)。通過使用電影列表作為神經(jīng)網(wǎng)絡(luò)的輸入,并將神經(jīng)網(wǎng)絡(luò)的輸出與用戶評分進行比較,神經(jīng)網(wǎng)絡(luò)可以自我學(xué)習(xí)規(guī)則以預(yù)測特定用戶的未來評分。

專家建議

在我讀過許多資料中,我注意到有兩個很重要的建議經(jīng)常被推薦系統(tǒng)領(lǐng)域內(nèi)的專家提及。第一,基于用戶付費的物品進行推薦。當(dāng)一個用戶有購買意愿時,你就可以斷定他的評價一定是更具有相關(guān)性與準(zhǔn)確的。第二,使用多種算法總是比改進一種算法要好。Netflix Prize競賽就是一個很好的例子。

實現(xiàn)一個基于物品的推薦系統(tǒng)

下面的代碼演示了實現(xiàn)一個基于物品的推薦系統(tǒng)是多么的簡單與快速。所使用的語言是Python,并使用了Pandas與Numpy這兩個在推薦系統(tǒng)領(lǐng)域中最流行的庫。所使用的數(shù)據(jù)是電影評分,數(shù)據(jù)集來自MovieLens。

第一步:尋找相似的電影

1.讀取數(shù)據(jù)

import pandasaspd

import numpyasnp

ratings_cols=['user_id','movie_id','rating']

ratings=pd.read_csv('u.data',sep='t',names=ratings_cols,usecols=range(3))

movies_cols=['movie_id','title']

movies=pd.read_csv('u.item',sep='|',names=movies_cols,usecols=range(2))

ratings=pd.merge(ratings,movies)

2.構(gòu)造用戶的電影矩陣

movieRatings = ratings.pivot_table(index=['user_id'],columns=['title'],values='rating')

3.選擇一部電影并生成這部電影與其他所有電影的相似度

starWarsRatings=movieRatings['Star Wars (1977)']

similarMovies=movieRatings.corrwith(starWarsRatings)

similarMovies=similarMovies.dropna()

df=pd.DataFrame(similarMovies)

4.去除不流行的電影以避免生成不合適的推薦

ratingsCount=100

movieStats=ratings.groupby('title').agg({'rating':[np.size,np.mean]})

popularMovies=movieStats['rating']['size']>=ratingsCount

movieStats[popularMovies].sort_values([('rating','mean')],ascending=False)[:15]

5.提取與目標(biāo)電影相類似的流行電影

df=movieStats[popularMovies].join(pd.DataFrame(similarMovies,columns=['similarity']))

df.sort_values(['similarity'],ascending=False)[:15]

第二步:基于用戶的所有評分做出推薦

1.生成每兩部電影之間的相似度,并只保留流行電影的相似度

userRatings=ratings.pivot_table(index=['user_id'],columns=['title'],values='rating')

corrMatrix=userRatings.corr(method='pearson',min_periods=100)

2.對于每部用戶看過并評分過的電影,生成推薦(這里我們選擇用戶0)

myRatings=userRatings.loc[0].dropna()

simCandidates=pd.Series()

foriinrange(0,len(myRatings.index)):

#取出與評分過電影相似的電影

sims=corrMatrix[myRatings.index[i]].dropna()

#以用戶對這部電影的評分高低來衡量它的相似性

sims=sims.map(lambdax:x *myRatings[i])

#將結(jié)果放入相似性候選列表中

simCandidates=simCandidates.append(sims)

simCandidates.sort_values(inplace=True,ascending=False)

3.將所有相同電影的相似度加和

simCandidates=simCandidates.groupby(simCandidates.index).sum()

simCandidates.sort_values(inplace=True,ascending=False)

4.只保留用戶沒有看過的電影

filteredSims = simCandidates.drop(myRatings.index)

如何更進一步?

在上面的實例中,Pandas與我們的CPU足以處理MovieLens的數(shù)據(jù)集。然而,當(dāng)數(shù)據(jù)集變得更龐大時,處理的時間也會變得更加漫長。因此,你應(yīng)該轉(zhuǎn)為使用具有更強大處理能力的解決方案,如Spark或MapReduce。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10876

    瀏覽量

    212124
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31054

    瀏覽量

    269407
  • 推薦系統(tǒng)
    +關(guān)注

    關(guān)注

    1

    文章

    43

    瀏覽量

    10086

原文標(biāo)題:推薦系統(tǒng)概述

文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    嵌入式系統(tǒng)、單片機及ZigBee之間具體什么關(guān)系

    嵌入式系統(tǒng)、單片機及ZigBee之間具體什么關(guān)系,求助
    發(fā)表于 03-04 10:28

    求教:linux系統(tǒng)和WEB服務(wù)器什么關(guān)系?WEB服務(wù)器和網(wǎng)頁又是什么關(guān)系?

    最近在學(xué)習(xí)arm上linux系統(tǒng)移植以及WEB服務(wù)器,幾個問題非常非常困惑,希望大家能幫忙解答下。1.linux操作系統(tǒng)和web服務(wù)器屬于什么關(guān)
    發(fā)表于 10-10 20:20

    FTW影響系統(tǒng)時鐘請問這兩者之間什么關(guān)系

    您好我現(xiàn)在要用AD9957的pll和DDS。pll可以鎖定,但是DDS中FTW的改變影響PLL系統(tǒng)時鐘的輸出。這兩者之間什么關(guān)系
    發(fā)表于 09-10 10:34

    快速構(gòu)建并迭代你的第一個系統(tǒng)

    進行中轉(zhuǎn)。? 更多…雖然我在反垃圾郵件領(lǐng)域已經(jīng)定的經(jīng)驗,卻依然難以保證每次都能順利在上面的方向中進行抉擇。如果你在此領(lǐng)域并不是專家,難度會變得更大。如果在
    發(fā)表于 12-18 09:11

    請問最小系統(tǒng)板電源供電的各個電壓間什么關(guān)系

    針對單片機而言,他們分別是什么?各個電壓之間什么關(guān)系?(需要分別用電阻、電容、電感器件隔離嗎?)各自的電壓分別是多少?請知曉的詳細(xì)解釋下,順便他人學(xué)習(xí),(網(wǎng)上百度的我看了不少),或者請告訴我從哪
    發(fā)表于 10-09 02:25

    請問ucosiii系統(tǒng)定義中斷函數(shù)和裸機中的中斷函數(shù)是什么關(guān)系?

    請問ucosiii中的系統(tǒng)定義中斷函數(shù)和裸機中的中斷函數(shù)是什么關(guān)系,二者是怎么聯(lián)系起來的????????比如ucos中斷(void)BSP_IntHandlerEXTI1(void)和裸機中斷EXTI1_IRQHandler()
    發(fā)表于 04-23 04:11

    基于Buildroot的Linux系統(tǒng)構(gòu)建技巧經(jīng)驗分享

    導(dǎo)讀:嵌入式Linux開發(fā)大體上可以分為三部分BSP開發(fā)、系統(tǒng)集成、應(yīng)用開發(fā),般公司開發(fā)會有不同的人員分別負(fù)責(zé)這三大的部分。就本文談到Linux
    發(fā)表于 05-02 07:00

    電子電氣架構(gòu)、車載操作系統(tǒng)、基礎(chǔ)軟件平臺等之間什么關(guān)系

    電子電氣架構(gòu)、車載操作系統(tǒng)、基礎(chǔ)軟件平臺等之間什么關(guān)系?智能汽車軟件的范圍、軟硬件升級、SOA的內(nèi)涵詳細(xì)介紹SOA的實現(xiàn)細(xì)節(jié)是什么?
    發(fā)表于 09-26 08:25

    負(fù)反饋PID調(diào)節(jié)系統(tǒng)之電流環(huán)、速度環(huán)和位置環(huán)什么關(guān)系

    負(fù)反饋PID調(diào)節(jié)系統(tǒng)之電流環(huán)、速度環(huán)和位置環(huán)什么關(guān)系
    發(fā)表于 10-13 09:05

    微型微控制器與強大的人工智能(AI)世界什么關(guān)系

    AI設(shè)計主要參與方都是功能強大的CPU,GPU和FPGA等。微型微控制器與強大的人工智能(AI)世界什么關(guān)系?但隨著AI從云到邊緣的發(fā)展,
    發(fā)表于 11-01 08:55

    人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)什么關(guān)系?

    詞,這兩年出現(xiàn)的頻率越來越高:人工智能(AI),機器學(xué)習(xí)(ML),深度學(xué)習(xí)(DL),到底他們哥仨是什么關(guān)系?
    的頭像 發(fā)表于 06-08 15:19 ?1.2w次閱讀

    MES系統(tǒng)價格與選型什么關(guān)系

    太大不知如何進行選擇,其實這就與MES系統(tǒng)的選型有著直接關(guān)系,下面小編就來和大家聊聊關(guān)于MES系統(tǒng)價格與選型究竟有什么關(guān)系。
    發(fā)表于 11-22 08:00 ?2次下載

    嵌入式系統(tǒng)ARM和PLC及80C51單片機的用途和區(qū)別是什么?什么關(guān)系

    本文檔的主要內(nèi)容詳細(xì)介紹的是嵌入式系統(tǒng)ARM、PLC、80c51單片機之間的用途區(qū)別是什 么? 它們之間什么關(guān)系嗎?
    發(fā)表于 07-11 17:40 ?0次下載
    嵌入式<b class='flag-5'>系統(tǒng)</b>ARM和PLC及80C51單片機的用途和區(qū)別是什么?<b class='flag-5'>有</b><b class='flag-5'>什么關(guān)系</b>

    USB接口與雷電接口什么關(guān)系

    USB接口和雷電接口什么關(guān)系?
    的頭像 發(fā)表于 01-13 16:34 ?1.8w次閱讀

    如何構(gòu)建基于RFID的考勤系統(tǒng)?

    在這篇文章中,我們將構(gòu)建基于RFID的考勤系統(tǒng),該系統(tǒng)可以記錄給定時間窗口內(nèi) 12 名學(xué)生/教職員工的出勤情況,該
    的頭像 發(fā)表于 07-27 10:30 ?1116次閱讀
    如何<b class='flag-5'>構(gòu)建</b><b class='flag-5'>一</b><b class='flag-5'>個</b>基于RFID的考勤<b class='flag-5'>系統(tǒng)</b>?