在线成人一区二区,青椒影院,中字无码视频

來自：對白的算法屋

今天寫點技術(shù)干貨來回饋一下我的粉絲們。本來想繼續(xù)寫對比學(xué)習(xí)（Contrastive Learing）相關(guān)類型的文章，以滿足我出一本AI前沿技術(shù)書籍的夢想，但奈何NIPS2021接收的論文一直未公開，在arxiv上不停地刷，也只翻到了零碎的幾篇。于是，我想到該寫一下雙塔模型了，剛進(jìn)美團(tuán)的第一個月我就用到了Sentence-BERT。

為什么呢？因為雙塔模型在NLP和搜廣推中的應(yīng)用實在太廣泛了。不管是校招社招，面試NLP或推薦算法崗，這已經(jīng)是必問的知識點了。

接下來，我將從模型結(jié)構(gòu)，訓(xùn)練樣本構(gòu)造，模型目標(biāo)函數(shù)三個方面介紹雙塔模型該如何改進(jìn)，才能更好的提升業(yè)務(wù)中的效果。

一、雙塔模型結(jié)構(gòu)改進(jìn)

如圖所示，目前主流的雙塔模型結(jié)構(gòu)主要可以歸為三類。

第一類在離線階段直接將BERT編碼的document映射為固定長度的向量，在線階段將query映射為固定長度的向量，然后通過打分函數(shù)計算最后的得分，例如：Sentence-BERT，DPR。

第二類

模型在離線階段將BERT編碼document得到的多個向量（每個向量對應(yīng)一個token）全部保留，在線階段利用BERT將query編碼成多個向量，和離線階段保留的document的多個向量進(jìn)行交互打分（復(fù)雜度O（mn）），得到最后的得分，代表工作，Col-BERT。

第三類

模型是前兩種的折中，將離線階段BERT編碼得到的document向量進(jìn)行壓縮，保留k個（k《m）個向量，并且使用一個向量來表示query（一般query包含的信息較少），在線階段計算一個query向量和k個document向量的交互打分（復(fù)雜度O（k）），代表工作：Poly-BERT，PQ-BERT。

總結(jié)這類工作的主要思想是增強(qiáng)雙塔模型的向量表示能力，由于document較長，可能對應(yīng)多種語義，而原始雙塔模型對query和document只使用一個向量表示，可能造成語義缺失。那么可以使用多個向量來表示document，在線階段再進(jìn)行一些優(yōu)化來加速模型的推斷。

二、訓(xùn)練樣本構(gòu)造

檢索任務(wù)中，相對于整體document庫，每個query所對應(yīng)的相關(guān)document是很少的一部分。在訓(xùn)練時，模型往往只接收query對應(yīng)的相關(guān)文檔（正樣本）以及少量query的不相關(guān)文檔（負(fù)樣本），目標(biāo)函數(shù)是區(qū)分正樣本和負(fù)樣本。然而在模型推斷時，模型需要對document庫中的所有document進(jìn)行打分。如果模型在訓(xùn)練時讀取的document和document庫中的一些document之間的語義距離相差較大，則可能造成模型在推斷階段表現(xiàn)不佳。因此，如何構(gòu)造訓(xùn)練樣本是一個重要的研究方向。

方法一：（1）首先介紹一個比較簡單的trick，In-batch negatives。顧名思義，在訓(xùn)練時，假設(shè)一個batch中包含b個query，每個query（q_i）都有一個對應(yīng)的正樣本dp_i和負(fù)樣本dq_i，那么在這個batch中，每個q_i除了自己所對應(yīng)的負(fù)樣本，還可以將batch中其他query所對一個的正樣本和負(fù)樣本都作為當(dāng)前query所對應(yīng)的負(fù)樣本，大大提高了訓(xùn)練數(shù)據(jù)的利用率。實驗表明，該trick在各種檢索任務(wù)上都能提高模型的效果。

方法二：（2）上述方法的目標(biāo)是在訓(xùn)練過程中利用更多的負(fù)樣本，讓模型的魯棒性更強(qiáng)。然而訓(xùn)練過程能遍歷的負(fù)樣本始終是有限的，那么如何在有限的訓(xùn)練樣本中構(gòu)造更有利于模型訓(xùn)練的負(fù)樣本是一個重要的研究問題。

ANCE提出了一種迭代式生成負(fù)樣本的思路：隨著訓(xùn)練的進(jìn)行，模型對于文本的表示也會變化，之前對于模型較難的負(fù)樣本可能變得不那么難，而之前沒見過的負(fù)樣本對于模型可能會較難區(qū)分。該工作以此為出發(fā)點，同時進(jìn)行train和inference，在訓(xùn)練的同時，利用上一個checkpoint中的模型進(jìn)行inference，對訓(xùn)練數(shù)據(jù)生成新的負(fù)樣本，在inference完成后，使用新的負(fù)樣本進(jìn)行訓(xùn)練。這樣可以漸進(jìn)的訓(xùn)練模型，保持負(fù)樣本的難度，更充分的訓(xùn)練模型。

方法三：（3）除了利用模型本身來生成負(fù)樣本，還可以利用比雙塔模型復(fù)雜的交互模型來生成訓(xùn)練數(shù)據(jù)。RocketQA提出了基于交互模型來增強(qiáng)數(shù)據(jù)的方法。由于交互模型的表現(xiàn)更強(qiáng)，作者使用交互模型來標(biāo)注可能成為正樣本的文檔（這些文檔未經(jīng)過標(biāo)注），以及篩選更難的訓(xùn)練雙塔模型的樣本。具體的訓(xùn)練過程如下圖所示：

總結(jié)：這類工作從訓(xùn)練數(shù)據(jù)著手，彌補(bǔ)原有的訓(xùn)練模式對于缺少負(fù)樣本優(yōu)化的不足。個人角度認(rèn)為這類工作提升可能更為顯著。

三、訓(xùn)練目標(biāo)改進(jìn)

訓(xùn)練目標(biāo)上的改進(jìn)比較靈活，有多種不同的改進(jìn)方式，首先介紹利用交互模型改進(jìn)雙塔模型的工作。

相對于雙塔模型，交互模型的表現(xiàn)更好，但復(fù)雜度更高，因此很多工作的idea是通過模型蒸餾將交互模型的文本表示能力遷移到雙塔模型中，這方面有很多類似的工作。這里選取一個SIGIR2021的最新文章作為代表。

如上圖所示，該模型不僅蒸餾了一個交互模型（monoBERT），同時還蒸餾了一個基于雙塔的改進(jìn)模型ColBERT。該模型使用monoBERT作為teacher，對模型的CLS位置向量進(jìn)行蒸餾，使用ColBERT作為teacher，對模型的除了［CLS］位置的向量進(jìn)行蒸餾，目標(biāo)函數(shù)為以下三部分的加和：

最后的打分函數(shù)是monoBERT和ColBERT的組合，即，首先使用document和query的CLS位置向量輸入MLP，輸出一個分?jǐn)?shù)，同時使用document和query的其他位置表示向量輸入到和ColBERT相同的打分函數(shù)中，最后使用兩個分?jǐn)?shù)的和作為最后打分。

前文所述的工作都是將query和document的文本映射到稠密向量空間中，然后進(jìn)行匹配。另外還有的工作是直接利用文字進(jìn)行匹配。Doc2query使用一個基于seq2seq的預(yù)訓(xùn)練語言模型（比如T5），利用標(biāo)注的document，query對進(jìn)行finetune，目標(biāo)是輸入document輸出對應(yīng)的query，然后將輸出的query和document本身進(jìn)行拼接，擴(kuò)展document。然后利用傳統(tǒng)的檢索方法，比如BM25，對擴(kuò)展過的document建立索引并查找。過程示意如下圖所示。在MSMARCO上的一些實驗表明，這個方法可以和基于向量的搜索一起使用，提高模型的表現(xiàn)。

四、雙塔模型預(yù)訓(xùn)練

一般的預(yù)訓(xùn)練模型使用的目標(biāo)函數(shù)主要是MLM或者seq2seq，這種預(yù)訓(xùn)練目標(biāo)和雙塔的匹配任務(wù)還是有一些不一致。并且已有的預(yù)訓(xùn)練模型即使有匹配任務(wù)（比如NSP），也是使用交互而非雙塔的工作方式。為了使用預(yù)訓(xùn)練提高雙塔模型的效果，SimCSE通過對比學(xué)習(xí)，提升模型對句子的表示能力。

該方法的實現(xiàn)很簡單，假設(shè)提取一個batch的句子，通過模型自帶的dropout，將每個句子輸入到預(yù)訓(xùn)練模型中，dropout兩次，將同一個句子dropout后的結(jié)果作為正樣本，不同句子的dropout結(jié)果作為負(fù)樣本，拉近正樣本的距離，拉遠(yuǎn)負(fù)樣本的距離，每個句子的向量由BERT的CLS位置向量表示。如下圖所示：

模型雖然很簡單，但是在句子匹配任務(wù)上取得了很好的效果。該模型在檢索任務(wù)上的效果還需實驗。

還有的工作是針對檢索任務(wù)的預(yù)訓(xùn)練。ICLR2020一篇論文Pre-training Tasks for Embedding-based Large-scale Retrieval提出了一些預(yù)訓(xùn)練任務(wù)，這些任務(wù)主要是針對Wikipedia的，不一定具有普適性。如下圖所示，紫色d框出來的代表document，q1，q2，q3代表不同任務(wù)構(gòu)造的的query，q1是ICT，即利用document所在的一句話作為query，q2是BFS，即利用document所在網(wǎng)頁的第一段中的一句話作為query，q3是WLP，使用document中的某個超鏈接頁面的第一句話作為query。任務(wù)目標(biāo)是匹配q1，q2，q3和d。

Condenser

傳統(tǒng)的MLM預(yù)訓(xùn)練任務(wù)如下圖所示，該任務(wù)沒有特別強(qiáng)制訓(xùn)練CLS位置的向量表示能力。為了將整個序列的信息壓縮到CLS位置上，Condenser將模型分成兩部分，第一部分和普通的Transformer一樣，第二部分使用經(jīng)過更多交互后的［CLS］位置向量（黃色部分）來預(yù)測［MASK］的token，強(qiáng)制模型的［CLS］編碼可以具有還原其他token的能力。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
31028

瀏覽量
269371
編碼

編碼

+關(guān)注

關(guān)注
6

文章
945

瀏覽量
54860
CLS

CLS

+關(guān)注

關(guān)注
0

文章
9

瀏覽量
9718
nlp

nlp

+關(guān)注

關(guān)注
1

文章
489

瀏覽量
22052

原文標(biāo)題：業(yè)界總結(jié) | 如何改進(jìn)雙塔模型，才能更好的提升你的算法效果？

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測模型

并非易事，它涉及到從選擇合適的算法架構(gòu)到針對特定硬件平臺進(jìn)行優(yōu)化等一系列復(fù)雜的工作。接下來，我們將詳細(xì)介紹如何在資源受限的邊緣設(shè)備上成功部署目標(biāo)檢測模型，探索其背后的原理和技術(shù)，并討論解決該領(lǐng)域內(nèi)常見

發(fā)表于 12-19 14:33

如何提升ASR模型的準(zhǔn)確性

提升ASR（Automatic Speech Recognition，自動語音識別）模型的準(zhǔn)確性是語音識別技術(shù)領(lǐng)域的核心挑戰(zhàn)之一。以下是一些提升ASR模型準(zhǔn)確性的關(guān)鍵方法：一、優(yōu)化數(shù)

發(fā)表于 11-18 15:14 ?962次閱讀

如何提升AIC3254 AEC的錄音效果？

最近在 3254 EVM板上調(diào)試 AEC功能，平臺搭建如下： 1.J7LINE OUT接音箱； 2.J4EXT MIC IN 外接了個MIC 現(xiàn)在情況是：回音基本消除，但是發(fā)現(xiàn)近端的錄音效果不理想，不知如何改進(jìn)？下圖是我的 mini-dsp 的例程、配置，附件中是該配置

發(fā)表于 11-07 06:02

如何評估AI大模型的效果

評估AI大模型的效果是一個復(fù)雜且多維度的過程，涉及多個方面的考量。以下是一些關(guān)鍵的評估方法和步驟：一、基準(zhǔn)測試（Benchmarking）使用標(biāo)準(zhǔn)數(shù)據(jù)集和任務(wù)來評估模型的性能，如GLUE

發(fā)表于 10-23 15:21 ?1132次閱讀

未來AI大模型的發(fā)展趨勢

上得到了顯著提升。未來，算法和架構(gòu)的進(jìn)一步優(yōu)化將推動AI大模型在性能上實現(xiàn)新的突破。多頭自注意力機(jī)制、前饋神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù)的改進(jìn)，將增強(qiáng)模型

發(fā)表于 10-23 15:06 ?654次閱讀

通過兩級OPA656實現(xiàn)微弱光電信號的放大，如何才能更好的抑制噪聲呢？

我現(xiàn)在通過兩級OPA656實現(xiàn)微弱光電信號的放大，但是通過示波器檢測時發(fā)現(xiàn)一級噪聲可以達(dá)到50mv，二級放大后噪聲可達(dá)到200多mv。一級噪聲這么大完全可以把信號噪聲給淹沒了，如何才能更好的抑制

發(fā)表于 09-06 08:13

請問vca810和vca821哪個片子做AGC效果更好呢？

請問TI的vca810和vca821哪個片子做AGC效果更好呢

發(fā)表于 09-05 07:43

大電流繞線電感選擇什么規(guī)格的效果會更好

大電流繞線電感選擇什么規(guī)格的效果會更好 gujing 編輯：谷景電子電感作為電子電路中非常重要的一種電感元器件，它的類型有很多，不同的類型在電路中的功能作用也時存在差異的。大電流繞線電感就是特別

發(fā)表于 08-13 21:21 ?250次閱讀

圖像識別算法的提升有哪些

引言圖像識別是計算機(jī)視覺領(lǐng)域的核心任務(wù)之一，旨在使計算機(jī)能夠自動地識別和理解圖像中的內(nèi)容。隨著計算機(jī)硬件的發(fā)展和深度學(xué)習(xí)技術(shù)的突破，圖像識別算法的性能得到了顯著提升。本文將介紹圖像識別算法的

發(fā)表于 07-16 11:12 ?666次閱讀

ai大模型和算法有什么區(qū)別

AI大模型和算法是人工智能領(lǐng)域的兩個重要概念，它們在很多方面有著密切的聯(lián)系，但同時也存在一些明顯的區(qū)別。定義和概念 AI大模型通常是指具有大量參數(shù)和復(fù)雜結(jié)構(gòu)的人工智能模型，它們能夠處

發(fā)表于 07-16 10:09 ?1908次閱讀

yolox_bytetrack_osd_encode示例自帶的yolox模型效果不好是怎么回事？

、yolox_pre.json 用的都是yolox_bytetrack_s_int8_4b.bmodel模型效果不好如附件，只識別到左邊1個人，右邊2人都沒識別到問題1

發(fā)表于 07-05 07:51

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型，本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù)，

發(fā)表于 07-01 16:13 ?1323次閱讀

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

類任務(wù)上表現(xiàn)出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務(wù)，類似于人類的系統(tǒng)2，如數(shù)字推理等。然而，隨著參數(shù)量的增加，大語言模型在這類任務(wù)上并未出現(xiàn)質(zhì)的飛躍，除非有精心

發(fā)表于 05-07 17:21

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

更好地擬合訓(xùn)練數(shù)據(jù)，并在推理和泛化時表現(xiàn)出色。此外，特征復(fù)用通過共享參數(shù)提高效率和性能，使得大語言模型能夠更有效地利用學(xué)到的特征。最后，優(yōu)化效果則通過使用更復(fù)雜的優(yōu)化算法和更長的訓(xùn)練時

發(fā)表于 05-04 23:55

為什么深度學(xué)習(xí)的效果更好？

，這些原則和進(jìn)步協(xié)同作用使這些模型異常強(qiáng)大。本文探討了深度學(xué)習(xí)成功背后的核心原因，包括其學(xué)習(xí)層次表示的能力、大型數(shù)據(jù)集的影響、計算能力的進(jìn)步、算法創(chuàng)新、遷移學(xué)習(xí)的

發(fā)表于 03-09 08:26 ?638次閱讀

搜索歷史

如何改進(jìn)雙塔模型才能更好的提升你的算法效果

評論

AI模型部署邊緣設(shè)備的奇妙之旅：目標(biāo)檢測模型

如何提升ASR模型的準(zhǔn)確性

如何提升AIC3254 AEC的錄音效果？

如何評估AI大模型的效果

未來AI大模型的發(fā)展趨勢

通過兩級OPA656實現(xiàn)微弱光電信號的放大，如何才能更好的抑制噪聲呢？

請問vca810和vca821哪個片子做AGC效果更好呢？

大電流繞線電感選擇什么規(guī)格的效果會更好

圖像識別算法的提升有哪些

ai大模型和算法有什么區(qū)別

yolox_bytetrack_osd_encode示例自帶的yolox模型效果不好是怎么回事？

深度學(xué)習(xí)模型訓(xùn)練過程詳解

【大語言模型：原理與工程實踐】大語言模型的應(yīng)用

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

為什么深度學(xué)習(xí)的效果更好？