99久久免费国产精品黑人,潮喷大喷水系列无码久久精品

本期導(dǎo)讀：文本摘要技術(shù)（Text Summarization）是信息爆炸時代，提升人們獲取有效信息效率的關(guān)鍵技術(shù)之一，如何從冗余、非結(jié)構(gòu)化的長文本中提煉出關(guān)鍵信息，構(gòu)成精簡通順的摘要，是文本摘要的核心問題。抽取式摘要則是文本摘要技術(shù)中效果穩(wěn)定，實現(xiàn)簡單的一類方法，本文結(jié)合COLING 2020中抽取式摘要相關(guān)的兩篇最新工作，對抽取式摘要方法中如何合理設(shè)置抽取單元展開介紹。

引言

在自動文本摘要任務(wù)中，抽取式摘要方法是從原文中抽取預(yù)先設(shè)置好的抽取單元，抽取單元一般為句子、短語或詞，目前大多數(shù)方法還是以句子為抽取單元，雖然句子級的抽取式摘要方法能夠?qū)崿F(xiàn)一個較好的摘要效果，但依然存在以下問題：

冗余性，抽取出的句子存在冗余。

不必要性，抽取出的句子包含了一些不關(guān)鍵的信息。

存在抽取出的句子之間銜接生硬，不夠自然。

現(xiàn)有工作通常使用tri-block后處理策略，即跳過和已選擇句子存在tri-gram重疊的句子來減少冗余。還有一些工作在抽取的摘要基礎(chǔ)上結(jié)合生成式摘要方法進行改寫和優(yōu)化，減少不相關(guān)的信息，同時提升銜接流暢度。本期介紹的兩篇工作從設(shè)計一個比句子更細粒度的抽取單元出發(fā)，希望通過細粒度的抽取單元，分割出整句中的關(guān)鍵信息和不關(guān)鍵信息，避開冗余的和不必要的內(nèi)容來解決前兩點問題。

At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization

騰訊的Qingyu Zhou等人發(fā)表于COLING 2020會議上的一篇文章，論文主要針對抽取整句摘要方法存在的冗余性和不必要性問題，提出一種以子句作為抽取單元的抽取式摘要方法。本文的主要貢獻包括兩點：（1）提出了一種子句作為抽取單元的設(shè)置方式，介于短語和整句之間。（2）設(shè)計了基于BERT的子句摘要抽取模型，性能相比抽取整句有所提升。

子句的定義

圖 1 PTB句法成分解析樹

本文通過Penn Treebank（PTB）［1］方法對句子進行句法成分分析，對每一個從句節(jié)點S和SBAR都視為子句單元。為了保留更完整的語義信息，如果一個從句節(jié)點被包括在更高層的從句節(jié)點中，則選擇最高層的子句節(jié)點（除去根節(jié)點）作為抽取的子句單元。例如圖1中，紅色實線圈中的從句節(jié)點是最終選定的子句單元，如果一個句子解析后不存在從句節(jié)點，則直接選用整句作為抽取單元。

模型概述

圖2 基于BERT的子句抽取模型SSE（Sub-Sentential Extraction ）

抽取模型參考了BERTSUM［2］，這里對子句范圍內(nèi)的token做平均池化得到子句單元的表示，收集到所有子句單元的表示后再經(jīng)過一層Transformer層混合上下句之間的信息，經(jīng)過一層全連接層進行二分類預(yù)測當(dāng)前子句單元是需要抽取。訓(xùn)練時學(xué)習(xí)每個子句是否需要抽取，預(yù)測時選擇分數(shù)最高的top-N個子句拼接后輸出。

實驗評價

實驗數(shù)據(jù)集使用經(jīng)典的文本摘要數(shù)據(jù)集CNN/DailyMail。

表1 CNN/DM數(shù)據(jù)集中對參考摘要，句子級抽取的標(biāo)準(zhǔn)摘要，子句級抽取的標(biāo)準(zhǔn)摘要的統(tǒng)計

表1中Ora表示抽取式摘要方法中對目標(biāo)抽取單元的Oracle構(gòu)造方法，一般以貪心思想依次選擇ROUGE增量分數(shù)最高的抽取單元加入，選擇N個或沒有可使ROUGE分數(shù)增加的選擇時停止?？梢钥吹剑宰泳渥鳛槌槿卧?，Ora-ss抽取方法的ROUGE P分數(shù)更高，說明以子句為抽取單元能夠避免抽取到不必要信息。從n-gram Overlap指標(biāo)可以看出，Ora-ss抽取的內(nèi)容重復(fù)度更低，冗余性相對抽取整句Ora-sent方法更低。

表2 CNN/DM測試集上的ROUGE F1評測結(jié)果

實驗結(jié)果如表2所示，SSE模型不依賴后處理策略，在ROUGE-2和ROUGE-L上都超越了基線方法，且對比BERT-SENT（作者復(fù)現(xiàn)的BERTSUMEXT）提升顯著。

表3 人工評估結(jié)果

人工評估結(jié)果如表3，隨機采樣了50條樣本，經(jīng)過人工打分對比兩個模型之間的優(yōu)劣，各指標(biāo)均是越低表示模型表現(xiàn)越優(yōu)秀?？梢钥吹絊SE模型犧牲了一定的可讀性，帶來了整體上性能的提升，減少了冗余性和不必要性。

結(jié)論

以句法成分解析樹中從句節(jié)點作為抽取式摘要的抽取單元，能夠有效降低抽取摘要的冗余性和不必要性，犧牲一定的可讀性，提升整體摘要性能，可讀性受句法解析器準(zhǔn)確率，以及子句片段自身相對于整個句子的不完備性影響，但整體上SSE達到相比抽取句子更優(yōu)的性能。

Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT

浙江大學(xué)Hanlu Wu等人在COLING 2020會議上發(fā)表的一篇文章，本文主要貢獻包括兩點：（1）基于依存分析方法設(shè)計了一種子句單元，命名為事實（Fact）。（2）設(shè)計了層次化的事實抽取摘要模型，通過改變注意力Mask對BERT直接引入了結(jié)構(gòu)化信息。

事實的定義

圖3 依存分析樹中對整句拆分出事實片段的例子

本文提出了一種經(jīng)驗性的事實拆分算法，流程如下：

用依存分析方法（Stanford CoreNLP）對候選句子進行解析，每個句子用標(biāo)點符號、連接詞和從句的節(jié)點進行拆分，包括PU（標(biāo)點）， CC（連詞）， IP（從句）。

為了獲得完整的語義單元，我們對一些特殊的關(guān)系連邊兩端的子句進行合并，包括acl:relcl，advcl（狀語從句修飾詞），appos（同位詞），ccomp（從句補充）。

判斷conj（連接關(guān)系）連接的2個元素是從句還是詞語，如果2個元素距離低于一個閾值，則視為連接2個詞語進行合并，否則視為2個子句。

預(yù)先定義了一個最小事實長度和最大事實長度，在執(zhí)行上述合并過程中，如果某個子句長度超過最大長度，則視為獨立的子句，不參與合并。一切合并操作執(zhí)行完成后，若存在小于最小長度的子句，和前置的子句進行合并，最后所有的子句作為事實。

表4 CNN/DM數(shù)據(jù)訓(xùn)練集原文切分結(jié)果的統(tǒng)計

表4統(tǒng)計了CNN/DM數(shù)據(jù)中訓(xùn)練集的文章按句子切分和按事實切分后的數(shù)量和長度，平均1個句子包含1.6個事實，存在一部分句子獨立作為單個事實，其他情況下通常一個句子被拆分為2到3個事實。

模型概述

圖4 層次化的事實級摘要抽取模型框架

模型如圖4所示，在BERT的注意力層加入了一個Mask矩陣來加入層次化的結(jié)構(gòu)信息，主要構(gòu)造了2種連邊：

同粒度下當(dāng)前token和其他token之間的雙向連邊，圖4中同色token之間都存在雙向連邊。

細粒度token指向粗粒度token的單向連邊，例如圖4中藍色token指向自己所在事實token ［cls_f］的連邊，以及事實指向句子，句子指向文檔的連邊。

在輸出層用全連接來對每個事實做分類，結(jié)合了文檔的表示和所在句子的表示：

||表示連接，在輸出時使用文檔和對應(yīng)句子的表示一同判斷當(dāng)前事實是否抽取。

訓(xùn)練時只學(xué)習(xí)事實的loss，預(yù)測時預(yù)測top-4的事實，加上tri-block去冗余策略。

實驗評價

本文實驗數(shù)據(jù)采用CNN/DM數(shù)據(jù)集。

表5 CNN/DM測試集上不同粒度的Oracle摘要對比

首先展示了基于事實用Oracle方法抽取摘要的效果，如表5所示，基于事實的Oracle方法提高了抽取方法的理論上界，能夠生產(chǎn)更精確的抽取標(biāo)簽。

表6 CNN/DM測試集評測結(jié)果

表6顯示加入事實后，相對于作者復(fù)現(xiàn)的BERTSUM都有一定的提升，其中結(jié)合句子級的表示效果最佳，而額外使用文檔級的信息沒有帶來提升，說明句子級的信息能夠有助于判斷句子內(nèi)的事實是否應(yīng)該抽取，而全文的文檔級信息過于粗粒度，對判斷事實是否抽取沒有幫助。

表7 在CNN/DM測試集上的消融實驗結(jié)果

消融實驗中對比了減去片段編碼和位置編碼的模型結(jié)果，表7下半部分是兩種基線方法去除位置編碼的結(jié)果，可以看出本文的方法去除位置信息后效果下降相對較小，說明層次化的結(jié)構(gòu)信息有助于更好地幫助模型理解語義信息而不會過度依賴位置信息。

總結(jié)

兩篇工作都是以設(shè)計粒度介于詞和句子之間的抽取單元為主要思想，對比來看，第一篇的子句抽取單元粒度更細，有著更高的理論上界，但存在一些可讀性上的問題。第二篇定義的事實作為抽取單元，在劃分事實的算法中加入經(jīng)驗性的處理，保證了事實拆分的準(zhǔn)確度和語義完整度。從模型優(yōu)化上來看，第二篇提供了一種從修改掩碼角度來對預(yù)訓(xùn)練模型引入結(jié)構(gòu)化信息的思路，但實驗中個人認為缺少了對應(yīng)的消融驗證實驗，應(yīng)當(dāng)對比結(jié)構(gòu)化掩碼和全連接掩碼的實驗結(jié)果。

抽取式摘要是文本摘要中的一類重要方法，除了本期兩篇工作關(guān)注的冗余性問題和不必要性問題，還存在例如抽取句子之間語義不連貫，銜接生硬等問題，以及如何對抽取式摘要進行準(zhǔn)確評價也是值得探究的一個問題。在實際應(yīng)用中設(shè)計方法時我們更應(yīng)該關(guān)注問題本身，使得方法具有更好地滿足真實需要。

原文標(biāo)題：【摘要抽取】抽取式摘要最新研究進展

文章出處：【微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

信息抽取

信息抽取

+關(guān)注

關(guān)注
0

文章
6

瀏覽量
6458

原文標(biāo)題：【摘要抽取】抽取式摘要最新研究進展

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

使用AMC1210為AMC1305L25做3階的256抽1的sinc抽取濾波器，請問是否可以呢？

我使用AMC1305L25做1200V高壓高邊電流隔離采集。想使用AMC1210為AMC1305L25做3階的256抽1的sinc抽取濾波器，請問是否可以呢？（備注：AMC1305L25與AMC1210之間加入了LVDS轉(zhuǎn)LVTTL電平的轉(zhuǎn)換芯片。）

發(fā)表于 12-27 07:37

請問AMC1203文檔中的OSC過采樣率和sinc3濾波器中的抽取率是不是同一個概念？

1、請問AMC1203文檔中的OSC過采樣率和sinc3濾波器中的抽取率是不是同一個概念？同為256？ 2、抽取率是不是MCLK時鐘的分頻因子？ 3、Combining the

發(fā)表于 12-16 06:42

ADS1299用ADS采集數(shù)據(jù)，ADS可以不抽取看原始得數(shù)據(jù)嗎？

1.用ADS采集數(shù)據(jù)，將時域的數(shù)據(jù)進行FFT變換，得到頻譜里面看似有 Sinc Filter 抽取，不需要抽取是否可以？ADS可以不抽取看原始得數(shù)據(jù)嗎？ 2.這個和手冊上的頻譜不一樣？請問這個是什么問題呢？

發(fā)表于 11-20 06:05

求助，關(guān)于AMC1306M25抽取率OSR的疑問求解

我客戶目前正在評估AMC1306M25，有以下疑問需要解答，可否幫忙確認一下：圖為官方的例程，兩個都應(yīng)該指的是抽取率OSR。但是當(dāng)客戶在第一個函數(shù)中填的抽取率為64，到第二張圖中ratio的值

發(fā)表于 11-14 07:09

有獎問卷：隨機抽取 30 名用戶送出快充數(shù)據(jù)線

您好， TI 致力于為中國客戶提供出色的在線技術(shù)支持，了解您的喜好是改善用戶體驗的重要環(huán)節(jié)。我們希望了解您目前訪問 TI 技術(shù)支持論壇的偏好，同時也希望知道在獲取技術(shù)支持的過程中哪些事情對您

發(fā)表于 10-09 08:08

求助，AD7190關(guān)于Σ-Δ ADC其中的抽取濾波器的數(shù)據(jù)轉(zhuǎn)換問題求解

AD7190可以通過模式寄存器的FS[0:9]設(shè)置輸出速率， 0-1023的范圍；此時設(shè)置的數(shù)據(jù)速率選擇位是否就是Σ-Δ ADC抽取濾波器的抽取比？關(guān)于

發(fā)表于 09-09 06:11

防水和防振動功能2.5 英寸SAS/SATA硬盤抽取盒非常適合車載數(shù)據(jù)存儲

首創(chuàng)的防水和防振動功能 2.5 英寸 SAS/SATA 硬盤抽取盒 – 非常適合車載數(shù)據(jù)存儲

發(fā)表于 08-12 19:16 ?458次閱讀

防水和防振動功能2.5 英寸SAS/SATA硬盤<b class='flag-5'>抽取</b>盒非常適合車載數(shù)據(jù)存儲

步進電機撥碼開關(guān)怎樣設(shè)置最合理？

? ? ? 步進電機撥碼開關(guān)設(shè)置是步進電機控制系統(tǒng)中的一個重要環(huán)節(jié)，合理的設(shè)置可以提高系統(tǒng)的穩(wěn)定性和可靠性，延長電機的使用壽命。本文將詳細介紹步進電機撥碼開關(guān)的

發(fā)表于 06-23 16:08 ?1164次閱讀

步進電機撥碼開關(guān)怎樣<b class='flag-5'>設(shè)置</b>最<b class='flag-5'>合理</b>？

步進電機撥碼開關(guān)怎樣設(shè)置最合理

步進電機撥碼開關(guān)設(shè)置是步進電機控制系統(tǒng)中的一個重要環(huán)節(jié)，合理的設(shè)置可以提高系統(tǒng)的穩(wěn)定性和可靠性，延長電機的使用壽命。本文將詳細介紹步進電機撥碼開關(guān)的

發(fā)表于 06-11 18:20 ?1261次閱讀

ICY DOCK Expresscage MB038SP-B硬盤抽取盒評測

2.5英寸托架，可安裝SAS或SATA固態(tài)硬盤。ICYDOCKExpressCageMB038SP-B的開箱與往常一樣，ICYDOCK將硬盤抽取盒裝在環(huán)保紙箱中。

發(fā)表于 05-17 16:20 ?454次閱讀

用STM8做一個用于抽取頻譜的東西, 如何采樣128個點用于FFT數(shù)據(jù)計算？

各位前輩和大俠們: 想用STM8做一個用于抽取頻譜的東西, 采用128點的FFT運算, 采樣率為16K, 這里就需要一次采樣128個點用于FFT數(shù)據(jù)計算. 該如何采樣這128個點的數(shù)據(jù)呢? 1.

發(fā)表于 05-16 08:10

企業(yè)級裝機必備推薦不用拆機的4盤位U.2 硬盤抽取盒

一代的4盤位NVMeU.2/U.3SSDPCIe4.0硬盤抽取盒，其創(chuàng)新性的免工具安裝和可抽取設(shè)計，針對企業(yè)級用戶的卓越兼容性和散熱性能設(shè)計，使其成為各種應(yīng)用場景

發(fā)表于 04-26 14:43 ?495次閱讀

這款熱插拔U.2硬盤抽取盒的散熱效果太棒了，實測ICY DOCK MB105VP-B靠譜嗎

隨著科技的不斷進步和數(shù)據(jù)需求的不斷增長，生成式人工智能、高性能計算(HPC)和大數(shù)據(jù)分析需求持續(xù)火爆，具有NVMe高速傳輸?shù)腢.2固態(tài)硬盤的使用越來越廣泛。提到U.2，其散熱性能是網(wǎng)友一直關(guān)注的話

發(fā)表于 03-22 14:46 ?657次閱讀

【概念產(chǎn)品 CP133-1】2 盤位 EDSFF E1.S NVMe SSD 硬盤抽取盒

產(chǎn)品介紹CP133-1EDSFFE1.SSSD硬盤抽取盒用于安裝標(biāo)準(zhǔn)的內(nèi)置3.5英寸裝置空間，支持兩個高度為9.5mm或15mm的硬盤,CP133-1EDSFFE1.SSSD移動機架設(shè)計用于安裝標(biāo)準(zhǔn)

發(fā)表于 02-07 10:57 ?359次閱讀

按鍵式和藍牙時控開關(guān)的設(shè)置方法

按鍵式和藍牙時控開關(guān)的設(shè)置方法? 在現(xiàn)代家居設(shè)計中，安裝一款高質(zhì)量的開關(guān)系統(tǒng)對于實現(xiàn)智能化控制是至關(guān)重要的一步。在這篇文章中，我們將詳細討論

發(fā)表于 02-05 11:32 ?1172次閱讀