0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

系統(tǒng)機器學習算法總結知識分享

zhKF_jqr_AI ? 來源:未知 ? 作者:steve ? 2017-12-15 14:11 ? 次閱讀

Statsbot數(shù)據(jù)科學家Daniil Korbut簡明扼要地介紹了用于推薦系統(tǒng)的主流機器學習算法:協(xié)同過濾、矩陣分解、聚類、深度學習

現(xiàn)在有許多公司使用大數(shù)據(jù)來制定高度相關的建議以提高收入。數(shù)據(jù)科學家需要根據(jù)業(yè)務的限制和需求,在各種推薦算法中選擇最好的算法。

為了簡化這一任務,Statsbot團隊準備了一份現(xiàn)有主要推薦系統(tǒng)算法的概覽。

協(xié)同過濾

協(xié)同過濾(collaborative filtering, CF)及其改版是最常用的推薦算法之一。 即使是數(shù)據(jù)科學初學者也可以使用它來構建他們的個人電影推薦系統(tǒng),比如用它寫一個簡歷項目。

當我們想向用戶推薦東西時,最符合邏輯的做法是找到有相似興趣的人,分析他們的行為,然后給我們的用戶推薦相同的東西。 或者我們可以查看與用戶之前所購類似的物品,并進行相應的推薦。

這正是CF的兩種基本方法:基于用戶的協(xié)作過濾和基于物品的協(xié)作過濾。

在這兩種情形下,推薦引擎分兩步:

  1. 找出數(shù)據(jù)庫中有多少用戶/物品與給定的用戶/物品類似。

  2. 評估其他用戶/物品,這一評估基于比待評估用戶/物品更相似的用戶/物品的總權重,以預測給用戶推薦相應產(chǎn)品的評分。

算法中的“最相似”是什么意思?

假設我們有一個表示每個用戶的偏好的向量(矩陣 R的行)和一個表示用戶給每件產(chǎn)品評分的向量(矩陣 R的列)。

首先,讓我們?nèi)コ恍┰兀槐A魞蓚€向量中值均已知的元素。

例如,如果我們想比較比爾和簡,我們可以看到,比爾還沒有看過《泰坦尼克號》,而簡到現(xiàn)在為止還沒看過《蝙蝠俠》,所以我們只能通過《星球大戰(zhàn)》來衡量他們的相似性。怎么會有人不看《星球大戰(zhàn)》,是吧?:)

最流行的衡量相似性的技術是用戶/物品向量之間的余弦相似性或加權平均數(shù)。

矩陣分解

下一個有趣的算法是矩陣分解。這是一個非常優(yōu)雅的推薦算法,因為使用矩陣分解時通常不用考慮要在結果矩陣的列和行中保留的物品。

u是第i個用戶的興趣向量,v是表示第j部電影的參數(shù)的向量。因此,我們可以使用u和v的點積來逼近x(第i個用戶對第j部電影的評分)。我們使用已知評分來構建這些向量,并使用它們來預測未知評分。

例如,我們有表示用戶特德的向量(1.4; .9)和表示電影A的向量(1.4; .8),矩陣分解之后我們可以直接通過計算(1.4; .9)和(1.4; .8)的點積來還原電影A——特德的評分,結果為2.68。

聚類

前面兩個推薦算法非常簡單,比較適合小型系統(tǒng)。到目前為止,我們將推薦問題看作一個監(jiān)督學習任務?,F(xiàn)在到了應用無監(jiān)督方法來解決這個問題的時候了。

想象一下,我們正在建立一個大型推薦系統(tǒng),協(xié)同過濾和矩陣分解會花很長時間。這時第一個想到的應該是聚類(clustering)。

根據(jù)屬于同一聚類的所有客戶的偏好,每個聚類會被分配一個典型偏好。每個聚類中的客戶將收到在聚類層次計算出的推薦。

業(yè)務初期缺乏用戶評分,因此聚類會是最佳選擇。

不過,單獨使用的話,聚類有點弱。因為通過聚類,我們識別出用戶群組,然后給同一群組中的每個用戶都推薦相同的物品。當我們有足夠多的數(shù)據(jù)的時候,更好的選擇是將聚類作為第一步,用來調(diào)整相關用戶/物品選取,以供協(xié)同過濾算法使用。聚類也能提升復雜推薦系統(tǒng)的性能。

深度學習

十年來,神經(jīng)網(wǎng)絡有一個巨大的飛躍。今天,神經(jīng)網(wǎng)絡被應用到許多領域,正逐漸取代傳統(tǒng)的機器學習方法。我想談一下YouTube使用的深度學習方法。

毫無疑問,為這樣的服務打造推薦系統(tǒng)是一項非常具有挑戰(zhàn)性的任務,因為這一服務的規(guī)模很大,語料庫是動態(tài)的,還有各種難以觀察的外部因素。

根據(jù)《YouTube推薦系統(tǒng)的深度神經(jīng)網(wǎng)絡》,YouTube推薦系統(tǒng)算法包括兩個神經(jīng)網(wǎng)絡:一個用于生成候選視頻,另一個用于排名。如果你沒有足夠的時間閱讀上面的論文,我這里有一個快速總結。

接受用戶的歷史事件作為輸入,候選生成網(wǎng)絡顯著減少了視頻的數(shù)量,從一個巨大的語料庫抽取出一組相關性最高的視頻。生成的候選視頻是最和用戶相關的,我們即將預測用戶給候選視頻的評分。這個網(wǎng)絡的目標只是通過協(xié)同過濾來提供一些范圍較廣的個性化候選視頻。

接下來我們需要更仔細地分析這些候選視頻,以挑選出其中最好的視頻。我們通過評分網(wǎng)絡完成這一任務,評分網(wǎng)絡可以通過一個期望目標函數(shù)給每個視頻賦值一個分數(shù),該期望目標函數(shù)使用描述視頻的數(shù)據(jù)和有關用戶行為的信息。評分最高的那些視頻將被推薦給用戶。

使用這一兩步方法,我們可以基于一個非常巨大的視頻語料庫推薦視頻,同時保證推薦的少量視頻是個性化的。這一設計也允許我們混合從其他來源生成的候選視頻。

這一推薦任務構成了一個極端多類分類(extreme multiclass classification)問題,基于用戶(U)和情境(C)精確地分類在給定時刻t觀看(wt)的特定視頻,這一視頻取自一個語料庫(V),總共有數(shù)百萬的視頻類別(i)。

構建你自己的推薦系統(tǒng)

  • 基于大型數(shù)據(jù)庫的在線推薦,最好的辦法是將這個問題拆分成兩個子問題:1)選擇排名最高的N個候選 2)對它們進行評分。

  • 如何評估模型質(zhì)量?除了標準的質(zhì)量指標之外,還有一些特別針對推薦問題的指標:Recall at K和Precision at K,Average Recall at K和Average Precision at K。另外可以參考《A Survey of Accuracy Evaluation Metrics of Recommendation Task》(JMLR 10 (2009))

  • 如果使用分類算法解決推薦問題,則應考慮生成負樣本。如果用戶購買了推薦的物品,不應將其作為正樣本,也不應將未購買的推薦物品作為負樣本。

  • 基于在線分數(shù)和離線分數(shù)考量算法質(zhì)量。 僅使用歷史數(shù)據(jù)的訓練模型可能導向簡陋的推薦系統(tǒng),因為該算法不知道新的潮流和偏好。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 聚類
    +關注

    關注

    0

    文章

    146

    瀏覽量

    14212
  • 協(xié)同過濾

    關注

    0

    文章

    45

    瀏覽量

    9785
  • 矩陣分解
    +關注

    關注

    1

    文章

    13

    瀏覽量

    3676

原文標題:推薦系統(tǒng)機器學習算法概覽

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【「具身智能機器系統(tǒng)」閱讀體驗】1.全書概覽與第一章學習

    了解具身智能機器人相關的知識,我感到十分榮幸和幸運。 全書簡介 本書以循序漸進的方式展開,通過對具身智能機器人技術的全方位解析,幫助讀者系統(tǒng)化地
    發(fā)表于 12-27 14:50

    《具身智能機器系統(tǒng)》第7-9章閱讀心得之具身智能機器人與大模型

    醫(yī)療領域,手術輔助機器人需要毫米級的精確控制,書中有介紹基于視覺伺服的實時控制算法,以及如何利用大模型優(yōu)化手術路徑規(guī)劃。工業(yè)場景中,協(xié)作機器人面臨的主要挑戰(zhàn)是快速適應新工藝流程。具身智能通過在線
    發(fā)表于 12-24 15:03

    【「具身智能機器系統(tǒng)」閱讀體驗】+初品的體驗

    學習資源,以培養(yǎng)更多的專業(yè)人才。隨著具身智能機器人技術對社會的影響越來越大,該書還可以向公眾普及相關的知識,以提升社會對新技術的認知和接受度,從而為技術的發(fā)展創(chuàng)造良好的社會環(huán)境。 隨著具身智能
    發(fā)表于 12-20 19:17

    《具身智能機器系統(tǒng)》第1-6章閱讀心得之具身智能機器系統(tǒng)背景知識與基礎模塊

    與環(huán)境持續(xù)互動來優(yōu)化決策策略。書中還進一步討論了強化學習的基本原理,包括狀態(tài)空間、動作空間、獎勵函數(shù)的設計,以及策略網(wǎng)絡的訓練方法。 具身智能機器系統(tǒng)是一個多學科知識交叉的復雜工程體
    發(fā)表于 12-19 22:26

    什么是機器學習?通過機器學習方法能解決哪些問題?

    來源:Master編程樹“機器學習”最初的研究動機是讓計算機系統(tǒng)具有人的學習能力以便實現(xiàn)人工智能。因為沒有學習能力的
    的頭像 發(fā)表于 11-16 01:07 ?404次閱讀
    什么是<b class='flag-5'>機器</b><b class='flag-5'>學習</b>?通過<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法能解決哪些問題?

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度
    的頭像 發(fā)表于 11-15 09:19 ?454次閱讀

    【「時間序列與機器學習」閱讀體驗】+ 鳥瞰這本書

    清晰,從時間序列分析的基礎理論出發(fā),逐步深入到機器學習算法在時間序列預測中的應用,內(nèi)容全面,循序漸進。每一章都經(jīng)過精心設計,對理論知識進行了詳細的闡述,對實際案例進行了生動的展示,使讀
    發(fā)表于 08-12 11:28

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統(tǒng)性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了
    發(fā)表于 08-12 11:21

    機器學習算法原理詳解

    機器學習作為人工智能的一個重要分支,其目標是通過讓計算機自動從數(shù)據(jù)中學習并改進其性能,而無需進行明確的編程。本文將深入解讀幾種常見的機器學習
    的頭像 發(fā)表于 07-02 11:25 ?1039次閱讀

    機器學習的經(jīng)典算法與應用

    關于數(shù)據(jù)機器學習就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應的關系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)集,在統(tǒng)計學習
    的頭像 發(fā)表于 06-27 08:27 ?1657次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的經(jīng)典<b class='flag-5'>算法</b>與應用

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    和專業(yè)知識,對這一領域進行系統(tǒng)的梳理和總結。然而,將時間序列分析與機器學習技術相結合的書籍卻并不多見。 以上正是《時間序列與
    發(fā)表于 06-25 15:00

    基于FPGA的常見的圖像算法模塊總結

    意在給大家補充一下基于FPGA的圖像算法基礎,于是講解了一下常見的圖像算法模塊,經(jīng)過個人的總結,將知識點分布如下所示。
    的頭像 發(fā)表于 04-28 11:45 ?598次閱讀
    基于FPGA的常見的圖像<b class='flag-5'>算法</b>模塊<b class='flag-5'>總結</b>

    機器學習怎么進入人工智能

    ,人工智能已成為一個熱門領域,涉及到多個行業(yè)和領域,例如語音識別、機器翻譯、圖像識別等。 在編程中進行人工智能的關鍵是使用機器學習算法,這是一類基于樣本數(shù)據(jù)和模型訓練來進行預測和判斷的
    的頭像 發(fā)表于 04-04 08:41 ?319次閱讀

    基于機器視覺和深度學習的焊接質(zhì)量檢測系統(tǒng)

    基于機器視覺和深度學習的焊接質(zhì)量檢測系統(tǒng)是一種創(chuàng)新性的技術解決方案,它結合了先進的計算機視覺和深度學習算法,用于實時監(jiān)測和評估焊接過程中的焊
    的頭像 發(fā)表于 01-18 17:50 ?806次閱讀

    機器視覺基礎知識總結

    照明是影響機器視覺系統(tǒng)輸入的重要因素。光源系統(tǒng)的設計非常重要,它與輸入數(shù)據(jù)直接相關,即圖像的質(zhì)量和應用效果。
    發(fā)表于 01-16 10:08 ?1136次閱讀