0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自制Word2Vec圖書推薦系統(tǒng),幫你找到最想看的書!

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-25 08:53 ? 次閱讀

最近有開發(fā)者自制了一套圖書推薦系統(tǒng),使用Word2Vec算法將書目表示為向量,可以同時(shí)獲得幾種書籍的推薦結(jié)果,并獲得書籍的TSNE圖及相似度最高的推薦。圖書數(shù)據(jù)來自GoodReads上的評價(jià)最高的前10000本書。開發(fā)者表示,采用較小的batchsize和長度可變的窗口可提升推薦相似度。

近日,有開發(fā)人員自制了一套圖書推薦系統(tǒng),使用Word2Vec算法將書目表示為向量,可以同時(shí)獲得幾種書籍的推薦,并獲得書籍的TSNE圖以及相似度最高的推薦信息。訓(xùn)練數(shù)據(jù)來自GoodReads上的評價(jià)最高的前10000本書。

作者將這一系統(tǒng)在Reddit論壇上進(jìn)行了算法介紹和推薦效果圖分享,引發(fā)廣泛討論。我們不妨來看看這個(gè)自制薦書系統(tǒng)是怎么做的。

以下是作者自己給出的系統(tǒng)展示和介紹,最后是技術(shù)實(shí)現(xiàn)環(huán)節(jié)的相關(guān)討論。

下面的圖片來自兩個(gè)2D TSNE生成的圖書嵌入圖。第一部分是數(shù)據(jù)中最常出現(xiàn)的3000本書的TNSE(已經(jīng)過10000本書的數(shù)據(jù)訓(xùn)練),第二部分是全部10000本書的TSNE。

我做了兩個(gè)TSNE圖,因?yàn)殡S著書籍書目的增加,推薦的準(zhǔn)確度趨于下降,所以我想查看最常出現(xiàn)的書籍的分布圖,然后再處理其余的書。

首先最常出現(xiàn)的3000本書的TSNE圖,先給出幾個(gè)局部放大圖,最后放上全圖。

下圖為作于最近30-40年間的奇幻/古典奇幻類書

中間的部分大部分是漫畫書,周圍是一些科學(xué)類書籍

宇宙科幻類:

喜劇類(主要是電視劇)

全圖

然后是全部10000本書的TSNE圖,同樣先給出幾個(gè)局部圖,最后是全圖。

歷史類書籍。圖左半部為美國史,右半部為世界通史

宇宙史和起源理論

兒童經(jīng)典書目

食品科學(xué)和新聞類

Word2Vec薦書系統(tǒng)的技術(shù)實(shí)現(xiàn)

下面是一些技術(shù)上的實(shí)現(xiàn)要點(diǎn),對機(jī)器學(xué)習(xí)感興趣的小伙伴們可以關(guān)注一下。

1、使用較小的batch size

訓(xùn)練中使用batch size較?。?2和64)對于確保所有書籍向量的穩(wěn)健性非常重要。在更高的batch size(128、256和512)下,大多數(shù)向量具有相當(dāng)?shù)南嗨菩?,但似乎總是有一些書的向量不具備相似性?/p>

以《哈利·波特》2-7部的推薦結(jié)果為例,如果直接查看數(shù)據(jù),很容易知道與這些書相似度最高的書應(yīng)該是該系列中的其他《哈利·波特》書,但最初推薦模型給出的相似圖書結(jié)果并非如此。但是,在把batch size設(shè)置為64后,推薦結(jié)果的相似度很快得到明顯改善。

由于平均窗口大小為112,并在20到200之間變化(取決于用戶閱讀的書籍?dāng)?shù)量),因此像《哈利·波特》這樣的系列叢書中的一些書,很可能會與其他書籍匹配為相似了。

假設(shè)某系列叢書中共有7本書,并且用戶對所有7本書都進(jìn)行了評分,該用戶還評價(jià)了112本其他書,那么,其中一本《哈利·波特》書與另一本《哈利·波特》在該用戶的標(biāo)簽下實(shí)現(xiàn)配對的概率是6/112。

在這種情況下,由于word2vec試圖一次性優(yōu)化多個(gè)嵌入,因此對于窗口大小很小且恒定的情況,更高的batch size會比word2vec算法的應(yīng)用對結(jié)果優(yōu)化造成更加明顯的阻礙。

2、Softmax嵌入向量算術(shù)

到目前為止,上面的所有矢量算術(shù)示例都是我在書籍輸入嵌入上執(zhí)行加法和/或減法,然后針對softmax嵌入對結(jié)果矢量執(zhí)行相似性結(jié)果的情況。比結(jié)果向量與輸入嵌入進(jìn)行比較要穩(wěn)健得多。

3、可變長度窗口(VLW)

最初的Word2Vec Cbow算法使用固定的窗口大小的單詞用作特定目標(biāo)的輸入。比如,如果窗口大小是目標(biāo)詞左側(cè)和右側(cè)的2個(gè)單詞,那么在這句“The cat in the hat”中,如果目標(biāo)詞(標(biāo)簽)是“in”,那么單詞'The ','cat','the'和'hat'將各自向量進(jìn)行平均,并將得到的結(jié)果向量作為輸入。

而在這個(gè)薦書系統(tǒng)中,窗口大小不可能是固定的。對于特定數(shù)據(jù)點(diǎn)(輸入),由用戶輸入的所有對全部書籍的評價(jià)都可能作為潛在的輸入,而且每個(gè)用戶瀏覽過的書籍?dāng)?shù)量彼此存在很大差異,因此窗口大小不可能恒定。

盡管窗口大小不是恒定的,但是平均輸入向量的數(shù)量是保持不變的。所有提供的數(shù)據(jù)都使用兩個(gè)平均向量作為輸入,這樣向量的算術(shù)屬性的穩(wěn)健性是最高的。改變輸入平均向量的數(shù)量,在相似性推薦屬性方面并沒有表現(xiàn)出明顯優(yōu)勢。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4629

    瀏覽量

    93234
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8438

    瀏覽量

    132970

原文標(biāo)題:【Reddit今日最火】Lit2Vec圖書推薦系統(tǒng),自動推薦適合你的AI好書!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    二維碼掃描頭嵌入在圖書自助管理設(shè)備中的應(yīng)用案例

    在當(dāng)今數(shù)字化時(shí)代,二維碼掃描技術(shù)已廣泛應(yīng)用于各行各業(yè),其中,在圖書自助管理設(shè)備中的嵌入應(yīng)用尤為引人注目。這不僅極大地提升了圖書館的服務(wù)效率與用戶體驗(yàn),還實(shí)現(xiàn)了圖書管理流程的智能化與自動化。以下將詳細(xì)
    的頭像 發(fā)表于 12-19 16:22 ?161次閱讀
    二維碼掃描頭嵌入在<b class='flag-5'>圖書</b>自助管理設(shè)備中的應(yīng)用案例

    如何保障圖書館用電安全?——安科瑞 丁佳雯

    一、圖書館的安全挑戰(zhàn)? 圖書館作為公共場所,其電氣系統(tǒng)復(fù)雜且龐大,包括照明、空調(diào)、電腦、電子閱讀設(shè)備等眾多用電設(shè)備。這些設(shè)備在長時(shí)間運(yùn)行過程中,可能會因老化、接觸不良或設(shè)計(jì)缺陷等原因產(chǎn)生故障電弧
    的頭像 發(fā)表于 12-13 14:34 ?163次閱讀
    如何保障<b class='flag-5'>圖書</b>館用電安全?——安科瑞 丁佳雯

    智慧圖書館能耗監(jiān)測優(yōu)化管理系統(tǒng)方案

    優(yōu)化管理系統(tǒng)方案,旨在通過智能化手段實(shí)現(xiàn)對圖書館能耗的全面監(jiān)測、精準(zhǔn)分析與高效管理,有效減少能耗成本并提高能源利用效率。 通過在圖書館各區(qū)域配電室內(nèi)部署物通博聯(lián)工業(yè)智能網(wǎng)關(guān),實(shí)時(shí)采集智能電表數(shù)據(jù),如電量、電壓
    的頭像 發(fā)表于 09-11 13:41 ?421次閱讀

    聚徽-什么是智能圖書

    智能圖書館(Intelligent Library,簡稱 IL)是把智能技術(shù)運(yùn)用在圖書館建設(shè)之中形成的一種現(xiàn)代化建筑,是智能建筑與高度自動化管理的數(shù)字圖書館的有機(jī)結(jié)合和創(chuàng)新。它應(yīng)同時(shí)具備兩者的設(shè)計(jì)思想、基本要求、特征和功能。智能
    的頭像 發(fā)表于 08-05 09:51 ?284次閱讀

    nlp自然語言處理模型有哪些

    : 詞嵌入(Word Embedding) 詞嵌入是將詞匯映射到高維空間的向量表示,使得語義相近的詞在向量空間中的距離更近。常見的詞嵌入模型有: Word2Vec:由Mikolov等人于2013年提出
    的頭像 發(fā)表于 07-05 09:57 ?846次閱讀

    雷拓科技云廣播助力江西省蘆溪縣新圖書館打造沉浸式觀展體驗(yàn)!

    ?蘆溪縣圖書館新館位于江西省萍鄉(xiāng)市蘆溪縣古城山公園袁河西路,占地8畝,建筑面積1.1萬平方米,嚴(yán)格按照國家一級圖書館標(biāo)準(zhǔn)設(shè)計(jì),集智能化、數(shù)字化、平臺化為一體,設(shè)立了自助辦證、借還一體機(jī)、智能書架
    的頭像 發(fā)表于 07-01 09:59 ?336次閱讀
    雷拓科技云廣播助力江西省蘆溪縣新<b class='flag-5'>圖書</b>館打造沉浸式觀展體驗(yàn)!

    iPad版微軟Word新增頁面邊框功能,提升文檔美觀度

    微軟公司今日宣布,啟動 Microsoft 365 Insider 項(xiàng)目的 iPad 版 Word 應(yīng)用程序的新功能測試活動——頁面邊框功能開發(fā)完成。此項(xiàng)便利有用的功能有助于提升文檔整體美感。
    的頭像 發(fā)表于 05-18 14:05 ?608次閱讀

    觸控屏密封試驗(yàn)儀幫你找到產(chǎn)品漏點(diǎn)

    在現(xiàn)代電子設(shè)備中,觸控屏的應(yīng)用日益廣泛,從智能手機(jī)、平板電腦到各種智能穿戴設(shè)備,都離不開觸控屏的支持。然而,觸控屏的密封性能對其使用壽命和穩(wěn)定性有著至關(guān)重要的影響。密封性不佳可能導(dǎo)致水分、灰塵等雜質(zhì)進(jìn)入,影響觸控屏的使用效果甚至導(dǎo)致?lián)p壞。為了確保觸控屏的密封性能,采用觸控屏密封試驗(yàn)儀進(jìn)行檢測顯得尤為重要。本文將重點(diǎn)介紹如何使用觸控屏密封試驗(yàn)儀對產(chǎn)品進(jìn)行精準(zhǔn)檢
    的頭像 發(fā)表于 05-15 11:36 ?335次閱讀
    觸控屏密封試驗(yàn)儀<b class='flag-5'>幫你</b><b class='flag-5'>找到</b>產(chǎn)品漏點(diǎn)

    名單公布!【書籍評測活動NO.32】硬核科普《計(jì)算》,豆瓣評分9.8,榮膺圖書界至高獎項(xiàng)

    ,它還被中國開發(fā)者評選為 2023年年度IT圖書 ! 此外,本書在豆瓣上也收獲了大家眾多好評,獲得豆瓣評分9.8的高分! 這到底是怎樣的一本,如此備受專家和讀者共同推崇呢? 我們?yōu)槭裁葱枰队?jì)算
    發(fā)表于 05-08 13:59

    如果通過物聯(lián)網(wǎng)技術(shù)提升學(xué)校圖書館管理水平

    圖書借還情況和庫存情況,以確保安全和資源管理。 2.智能圖書定位與管理:在每本書上附加RFID標(biāo)簽,通過RFID讀寫器實(shí)時(shí)跟蹤圖書位置和移動,提高
    的頭像 發(fā)表于 03-22 14:36 ?695次閱讀

    RFID智能書架:圖書館智能化管理的新趨勢

    智能書架,顧名思義,是一種集成了RFID技術(shù)的創(chuàng)新型書架。實(shí)現(xiàn)了圖書快速借還、快速盤點(diǎn)、查找、亂架圖書整理等功能,以RFID電子標(biāo)簽作為信息存儲媒介并粘貼在圖書上,在RFID芯片中存儲該圖書
    的頭像 發(fā)表于 03-20 16:53 ?651次閱讀

    AURIX Development Studio支持在線調(diào)試自制的最小系統(tǒng)嗎?

    AURIX Development Studio支持在線調(diào)試自制的最小系統(tǒng)嗎?看到的都是調(diào)試英飛凌官方的board,沒見到其他的。
    發(fā)表于 02-19 07:48

    上海交通大學(xué)徐匯校區(qū)包兆龍圖書館修繕工程電氣火災(zāi)監(jiān)控系統(tǒng) Acrelsale1

    安科瑞 程瑜? 基本信息: 項(xiàng)目名稱:上海交通大學(xué)徐匯校區(qū)包兆龍圖書館修 繕工程電氣火災(zāi)監(jiān)控系統(tǒng) 項(xiàng)目地點(diǎn):上海市徐匯區(qū) 實(shí)施時(shí)間:2015年 項(xiàng)目簡介: 香港著名
    的頭像 發(fā)表于 02-05 14:47 ?387次閱讀
    上海交通大學(xué)徐匯校區(qū)包兆龍<b class='flag-5'>圖書</b>館修繕工程電氣火災(zāi)監(jiān)控<b class='flag-5'>系統(tǒng)</b> Acrelsale1

    如何快速找到PCB中的GND?

    如何快速找到PCB中的GND?? 在PCB設(shè)計(jì)和制作過程中,找到地線(GND)是非常關(guān)鍵的步驟。GND是電子電路中一個(gè)非常重要的參考面,它提供了電路中的參考電平,并在電路中提供低噪聲的當(dāng)前路徑。因此
    的頭像 發(fā)表于 02-03 17:04 ?3816次閱讀

    找到CAN總線(故障)節(jié)點(diǎn)的三種辦法

    找到CAN總線(故障)節(jié)點(diǎn)的三種辦法? CAN總線是現(xiàn)代汽車電子系統(tǒng)中常見的通信協(xié)議,用于車載電子設(shè)備之間的數(shù)據(jù)傳輸。在汽車的CAN總線系統(tǒng)中,每個(gè)節(jié)點(diǎn)都扮演著重要的角色。然而,由于各種原因,有時(shí)候
    的頭像 發(fā)表于 02-02 10:35 ?1599次閱讀