0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東搜索重排:基于互信息的用戶偏好導向模型

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2024-08-26 15:56 ? 次閱讀

wKgaombMNRuAc1tlAARQd-WQZ-0949.png

SIGIR 24: A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search

鏈接:https://dl.acm.org/doi/abs/10.1145/3626772.3661359

摘要:重排是一種通過考慮商品之間的相互關(guān)系來重新排列商品順序以更有效地滿足用戶需求的過程?,F(xiàn)有的方法主要提高商品打分精度,通常以犧牲多樣性為代價,導致結(jié)果可能無法滿足用戶的多樣化需求。相反,旨在促進多樣性的方法可能會降低結(jié)果的精度,無法滿足用戶對準確性的要求。為了解決上述問題,本文提出了一種基于互信息的偏好導向多樣性模型(PODM-MI),在重排過程中同時考慮準確性和多樣性。具體而言,PODM-MI采用基于變分推理的多維高斯分布來捕捉具有不確定性的用戶多樣性偏好。然后,我們利用最大變分推理下界來最大化用戶多樣性偏好與候選商品之間的互信息,以增強它們的相關(guān)性。隨后,我們基于相關(guān)性得出一個效用矩陣,使項目能夠根據(jù)用戶偏好進行自適應(yīng)排序,從而在上述目標之間建立平衡。在京東主搜上的實驗結(jié)果證明了PODM-MI的顯著提升。

1、背景及現(xiàn)狀

?用戶從搜索到下單過程中存在不同的決策階段(買、逛等),用戶不同的決策階段對多樣性也有不同需求,現(xiàn)階段模型沒有直接建模不同決策階段和多樣性的關(guān)系。

?用戶需求考慮。

wKgaombMNR-AMgmtAAJYMOm_eJQ240.png

?重排階段需要充分考慮用戶需求。通常來說,用戶的需求是個性化的,即部分場景下對于排序結(jié)果的準確性要求較高,而另一部分場景下對于排序結(jié)果的多樣性要求較多。在這種情況下,一個合適的重排排序算法應(yīng)該自適應(yīng)地根據(jù)用戶需求進行結(jié)果調(diào)整,即當用戶需要多樣性時,搜索排序結(jié)果應(yīng)當包含盡可能不同的商品來滿足用戶的多種興趣來滿足用戶的多樣性需求;而當用戶需要準確性時,排序結(jié)果應(yīng)包含最符合用戶或用戶最感興趣的單一類別商品。例如,用戶從搜索“連衣裙”到逐漸縮小范圍到“荷葉邊連衣裙”,這一過程中,他們的搜索意圖從多樣化逐漸變得明確和具體。要在重排階段平衡效率指標和多樣性,我們面臨兩個主要挑戰(zhàn):

1.準確建模用戶的決策意圖困難,因為其意圖會在多次搜索中逐漸演變。

2.即使成功建模了用戶的意圖,如何加強搜索結(jié)果與用戶演變意圖的匹配關(guān)系?

為了解決這些挑戰(zhàn),我們提出了PODM-MI(基于互信息的偏好導向多樣性模型)。

2、PODM-MI

wKgZombMNSCARtV1AAOe3Kj6HGc358.png

PODM-MI模型以排序列表和用戶行為數(shù)據(jù)(如點擊流和加入購物車的行為)為輸入。首先,我們使用PON捕捉用戶的多樣性偏好和候選商品的多樣性表示。然后,SAM增強用戶多樣性偏好與候選商品多樣性之間的一致性。從這種增強的一致性中,我們得出一個效用矩陣,該矩陣會動態(tài)調(diào)整用戶偏好,從而重新排序最終的排名結(jié)果以更好地滿足用戶需求。

2.1 PON 用戶偏好建模

wKgaombMNSGAGOWoAATWDUy7DyM462.png

在電商搜索場景中,歷史查詢及其關(guān)聯(lián)商品提供了用戶意圖的有價值表示。因此,我們的方法不僅包括點擊流和加入購物車的行為,還包括查詢軌跡,以更好地捕捉用戶偏好。

傳統(tǒng)模型通常將用戶偏好視為靜態(tài),在潛在空間中創(chuàng)建固定的用戶嵌入。然而,這種方法在捕捉用戶偏好的復雜和動態(tài)特性時顯得不足。相比之下,分布表示引入了不確定性,提供了比單一固定嵌入更多的靈活性。

我們使用多維高斯分布來建模用戶偏好的演變趨勢。該分布由均值向量和對角協(xié)方差矩陣表征,使我們能夠更好地捕捉用戶偏好的動態(tài)特性。此外,高斯分布還可以用于測量收斂和發(fā)散趨勢。較大的方差表示更均勻的分布,而較小的方差則表示更集中的分布。這個方差可以間接反映用戶的偏好趨勢。

2.2 SAM 利用互信息優(yōu)化排序結(jié)果

wKgZombMNSKAFImfAARBNqhFGLY005.png

在建模用戶偏好和候選商品的多樣性之后,下一步是確保排序結(jié)果與用戶意圖緊密匹配。為此,我們可以使用互信息(一種衡量兩個變量之間共享信息量的方法)來量化候選商品與用戶偏好之間的相關(guān)性。通過最大化這兩個因素(用戶偏好和多樣性)之間的互信息,我們確保候選商品的分布與用戶意圖的分布緊密對齊。

然而,估計和最大化互信息通常是不可行的。為了解決這一挑戰(zhàn),我們借鑒了變分推理的文獻,引入了一個變分后驗估計器。該方法允許我們?yōu)榛バ畔⒛繕送茖С鲆粋€可行的下界。

wKgaombMNSOAAbuSAAS4QlpdcF8515.png

在增強一致性之后,我們設(shè)計了一個可學習的效用矩陣,以進一步使最終的排序結(jié)果與用戶偏好對齊。該矩陣通過可學習權(quán)重矩陣與對齊特征的點積獲得。然后,我們將效用矩陣與從主干網(wǎng)絡(luò)計算的分數(shù)相乘以得到最終結(jié)果。

2.3 優(yōu)化函數(shù)及最終loss

優(yōu)化函數(shù):

wKgZombMNSSAMTknAAFKKPDFhCQ313.png

wKgZombMNSWAOWU4AACaY_DLqAY841.png

最終loss:

前者是prm分類loss,后者是互信息loss

方案總結(jié):

wKgaombMNSaABbvEAACS9cmhxq0165.png

2.4 實驗結(jié)果及可視化分析

wKgZombMNSaAL8E_AAHT45r0JxY712.png

為了驗證PODM-MI的有效性,我們在京東電商搜索引擎中進行了在線A/B測試。PODM-MI不僅提高了用戶購買的可能性,還增加了搜索結(jié)果中商品的多樣性。需要注意的是,每增加0.10%的UCVR都會為公司帶來巨大的收入,因此PODM-MI取得的提升是非常顯著的。

wKgaombMNSeAMRPfAAEm0XJwCMg388.png

進一步的,我們對用戶query流降維后的趨勢使用TSNE可視化,同時降維可視化需要label足夠明顯,所以采用人工分桶的方法,對排序結(jié)果的多樣性熵進行人工分桶,分成多個label??梢钥闯?,不同發(fā)散收斂趨勢的query流有著很明顯的分層,query流同對應(yīng)的熵聚集在了一起,這表明不同的query流的發(fā)散趨勢對應(yīng)著不同的結(jié)果的熵。也就是說,query流越發(fā)散,session的排序結(jié)果越發(fā)散,query流越收斂,session的排序結(jié)果越收斂。

此外,我們還用一個更具體的案例來說明我們方法的有效性。當用戶的歷史搜索查詢非常多樣時,如:Switch,塞爾達,手機殼,錘子,油煙機,排氣管,在這種情況下,當用戶輸入“蔬菜水果脫水機”后,我們的方法比基線方法產(chǎn)生了更多樣化的結(jié)果。另外,還有一個收斂趨勢的案例。當用戶搜索“連衣裙”并訪問相應(yīng)的店鋪后,再次輸入該店鋪時,我們的方法比基線方法產(chǎn)生的結(jié)果更加集中,并且更好地與用戶的歷史搜索記錄相匹配。

3、未來迭代方向

? 引入更精細的特征,更好的建模用戶的逛買意圖

? 用戶意圖建模更新的進一步優(yōu)化

? 用戶意圖建模顯式影響

Note:

歡迎大家交流與探討,如有任何問題或建議,請隨時聯(lián)系:{wanghuimu1, limingming65}@jd.com。

我們京東搜索算法部目前有大量的社招和實習機會,誠邀有志之士加入。無論您是技術(shù)專家還是新興人才,我們都期待您的加入,共同推動技術(shù)的進步和創(chuàng)新。歡迎大家踴躍投遞簡歷,期待與您在京東相遇!

團隊最近相關(guān)工作:

1. Breaking the Hourglass Phenomenon of Residual Quantization: Enhancing the Upper Bound of Generative Retrieval (arxiv:2407.21488)

2. Generative Retrieval with Preference Optimization for E-commerce Search(arxiv:2407.19829)

3. A Preference-oriented Diversity Model Based on Mutual-information in Re-ranking for E-commerce Search(SIGIR 24 ACCEPTED)

4. MODRL-TA: A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search(CIKM 24 ACCEPTED)

5. Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model(SIGIR 24 ACCEPTED)

分享嘉賓:

王彗木博士

中科院自動化所博士,研究方向為大模型、強化學習,亦城優(yōu)秀人才,CCF 中國計算機學會專業(yè)會員,目前在京東從事主搜排序及生成式召排工作

李明明博士

資深算法專家中科院信工所博士,研究方向為大模型、語義檢索,亦城優(yōu)秀人才,CCF 中國計算機學會專業(yè)會員,目前在京東從事主搜召回及生成式召排工作

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4612

    瀏覽量

    92875
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3241

    瀏覽量

    48834
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1194

    瀏覽量

    20938
收藏 人收藏

    評論

    相關(guān)推薦

    基于最大互信息方法的機械零件圖像識別

    提出了應(yīng)用最大互信息方法進行零件圖像識別的方法,它利用圖像的信息熵描述圖像的特征,結(jié)合圖像的顏色信息及局部形狀信息,以互信息作為衡量兩幅圖像
    發(fā)表于 12-18 16:39 ?22次下載

    基于互信息的功能磁共振圖像配準

    互信息作為衡量兩幅圖像配準的相似性測度函數(shù),當兩幅圖像配準時,互信息達到最大值。該文提出了基于互信息腦功能磁共振圖像配準新方法,采用了無需計算梯度的Powell直接
    發(fā)表于 02-28 17:01 ?22次下載

    基于圖嵌入和最大互信息組合的降維

    在特征降維方面,圖嵌入框架統(tǒng)一了PCA, LDA 等一系列特征降維算法,方便求解,但相似度矩陣計算有賴于人為假設(shè)。而最大互信息(MMI)從信息論的角度得到有效的特征降維變換,
    發(fā)表于 08-21 10:24 ?9次下載

    基于互信息梯度優(yōu)化計算的信息判別特征提取

    該文將互信息梯度優(yōu)化引入特征提取矩陣求解,提出一種信息判別分析的特征提取方法。首先,分析了現(xiàn)有線性判別方法的特點和局限,建立了類條件分布參數(shù)模型互信息最大化
    發(fā)表于 02-10 12:02 ?9次下載

    Powell和SA混合優(yōu)化的互信息圖像配準

    基于互信息的圖像配準方法具有魯棒性強、配準精度高等優(yōu)點,已被廣泛應(yīng)用于醫(yī)學圖像的配準。但計算互信息涉及大量的浮點運算,且搜索最大互信息時容易陷入局部極值。本文提出
    發(fā)表于 02-21 14:46 ?14次下載

    基于規(guī)范互信息和動態(tài)冗余信號識別技術(shù)的特征選擇方法

    為了實現(xiàn)對模式識別、信號處理等領(lǐng)域中數(shù)據(jù)的有效表達,提出了一種基于規(guī)范互信息和動態(tài)冗余信號識別技術(shù)的特征選擇方法。該方法采用規(guī)范互信息對特征相關(guān)性和冗余性進行測量
    發(fā)表于 10-15 12:13 ?45次下載
    基于規(guī)范<b class='flag-5'>互信息</b>和動態(tài)冗余信號識別技術(shù)的特征選擇方法

    電磁_機電暫態(tài)混合仿真接口交互信息限制性分析

    電磁_機電暫態(tài)混合仿真接口交互信息限制性分析_陳鵬偉
    發(fā)表于 01-05 15:34 ?0次下載

    基于互信息屬性分析與極端學習機的超短期風速預測

    基于互信息屬性分析與極端學習機的超短期風速預測_黃南天
    發(fā)表于 01-05 15:33 ?0次下載

    基于互信息的生物神經(jīng)網(wǎng)絡(luò)功能性連接辨識_劉劍釗

    基于互信息的生物神經(jīng)網(wǎng)絡(luò)功能性連接辨識_劉劍釗
    發(fā)表于 03-19 19:25 ?0次下載

    基于互信息和余弦的不良文檔過濾

    針對網(wǎng)頁中的維吾爾文不良文檔信息的過濾問題,提出一種基于互信息和余弦相似度的不良文檔信息過濾方案。首先,對輸入文檔進行預處理,過濾掉無用單詞。然后,利用文檔頻率(DF)和互信息(MI)
    發(fā)表于 11-13 10:41 ?7次下載
    基于<b class='flag-5'>互信息</b>和余弦的不良文檔過濾

    面向評分數(shù)據(jù)中用戶偏好發(fā)現(xiàn)的隱變量模型構(gòu)建

    的方法。首先,針對評分數(shù)據(jù)的稀疏性,使用帶偏置的矩陣分解(BMF)模型對其進行填補;其次,用隱變量表示用戶偏好,給出了基于互信息(MI)、最大半團和期望最大化(EM)算法的隱變量
    發(fā)表于 12-06 10:59 ?0次下載
    面向評分數(shù)據(jù)中<b class='flag-5'>用戶</b><b class='flag-5'>偏好</b>發(fā)現(xiàn)的隱變量<b class='flag-5'>模型</b>構(gòu)建

    密碼芯片時域互信息能量分析

    在對密碼芯片進行時域上互信息能量分析基礎(chǔ)上,提出頻域上最大互信息系數(shù)能量分析攻擊的方法。該方法結(jié)合了密碼芯片在頻域上信息泄露的原理和互信息能量分析攻擊的原理,引入了最大
    發(fā)表于 02-27 10:48 ?0次下載
    密碼芯片時域<b class='flag-5'>互信息</b>能量分析

    訓練表示學習函數(shù)(即編碼器)以最大化其輸入和輸出之間的互信息

    互信息是出了名的難計算,特別是在連續(xù)和高維設(shè)置中。幸運的是,在神經(jīng)估計的最新進展中,已經(jīng)能夠有效計算深度神經(jīng)網(wǎng)絡(luò)的高維輸入/輸出對之間的互信息。而在本項研究中,研究人員利用這些技術(shù)進行表示學習。然而,最大化完全輸入與其表示之間的互信息
    的頭像 發(fā)表于 09-11 16:51 ?5305次閱讀

    一種改進互信息的加權(quán)樸素貝葉斯算法

    互信息和樸素貝葉斯算法應(yīng)用于垃圾郵件過濾時,存在特征冗余和獨立性假設(shè)不成立的問題。為此,提出種改進互信息的加權(quán)樸素貝葉斯算法。針對互信息效率較低的問題,通過引入詞頻因子與類間差異因子,提出一種改進
    發(fā)表于 03-16 10:15 ?12次下載
    一種改進<b class='flag-5'>互信息</b>的加權(quán)樸素貝葉斯算法

    基于互信息最大化的Raptor碼優(yōu)化設(shè)計方法

    基于互信息最大化的Raptor碼優(yōu)化設(shè)計方法
    發(fā)表于 07-02 11:47 ?8次下載