本文主要介紹阿里巴巴-搜索事業(yè)部算法團(tuán)隊(duì)上半年在智能內(nèi)容生成方向工作的一些實(shí)踐和思考。本文最早2017年10月初在集團(tuán)內(nèi)部發(fā)表,并獲得雙十一征文 "一騎絕塵" 獎(jiǎng),對(duì)外最早發(fā)表在阿里云云棲社區(qū)。
believe it or not,上圖中的文本內(nèi)容就是智能內(nèi)容生成的數(shù)據(jù),并非人工篩選的結(jié)果,線上大量投放。接下來(lái)本文介紹下這些商品內(nèi)容究竟是怎么生成出來(lái)的:
一、項(xiàng)目背景
1.1 什么是智能內(nèi)容生成?更準(zhǔn)確的定義應(yīng)該是智能文本內(nèi)容生成,指的是訓(xùn)練機(jī)器模型,智能生成單品推薦理由、多商品清單文章一類的文本型內(nèi)容,顯然,與智能內(nèi)容生成相對(duì)的概念是達(dá)人內(nèi)容生成。學(xué)界相關(guān)的技術(shù)領(lǐng)域?yàn)?NLG (Nature Language Generation),我們?cè)陧?xiàng)目?jī)?nèi)部定義為Data2Seq(D2S),即根據(jù)結(jié)構(gòu)化數(shù)據(jù)(Data)生成文本(Seq)。1.2 為什么要做智能內(nèi)容生成項(xiàng)目?首先,內(nèi)容化本身有著重要的業(yè)務(wù)價(jià)值。從手淘業(yè)務(wù)層面考慮,在移動(dòng)互聯(lián)網(wǎng)時(shí)代的格局已定的大環(huán)境下,各個(gè)領(lǐng)域的APP都開始從粗放爭(zhēng)奪用戶量轉(zhuǎn)向精細(xì)化爭(zhēng)奪用戶時(shí)間,內(nèi)容類公司也是愈發(fā)火熱。手淘從去年起開始逐漸進(jìn)行內(nèi)容化定位,用社區(qū)化、內(nèi)容化去爭(zhēng)取用戶停留時(shí)間。從手淘首頁(yè)的變化不難管中窺豹,各種各樣的內(nèi)容化場(chǎng)景層出不窮。因此搜索場(chǎng)景在這樣的大背景下自然不再只是承載成交轉(zhuǎn)化效率,內(nèi)容化在搜索有很多場(chǎng)景可以落地且具備巨大業(yè)務(wù)價(jià)值。
其次,目前手淘下各個(gè)場(chǎng)景的內(nèi)容化還是主要依賴達(dá)人內(nèi)容生成,達(dá)人內(nèi)容生成天然存在覆蓋商品量少、成本高的問(wèn)題。
最后,從技術(shù)可行性角度考慮,近幾年深度學(xué)習(xí)的浪潮強(qiáng)勁,在圖像、語(yǔ)音、自然語(yǔ)言、信息檢索等很多領(lǐng)域都取得了突破,內(nèi)部看搜索算法團(tuán)隊(duì)在前沿技術(shù)深度積累更多用于搜索場(chǎng)景效率提升,有必要向更general更廣闊的場(chǎng)景轉(zhuǎn)移,用技術(shù)驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新。更為重要的是,時(shí)至今日,淘寶平臺(tái)已經(jīng)積累了千萬(wàn)級(jí)的達(dá)人訓(xùn)練數(shù)據(jù),具備了很強(qiáng)的可行性。而從團(tuán)隊(duì)角度出發(fā),我們?cè)谶^(guò)去的工作中積累了一套完善的知識(shí)圖譜數(shù)據(jù)、商品理解能力和NLP領(lǐng)域的深度學(xué)習(xí)相關(guān)知識(shí)儲(chǔ)備,有能力提供系統(tǒng)化的文本內(nèi)容生成解決方案。1.3 智能內(nèi)容生成相對(duì)達(dá)人內(nèi)容生成的優(yōu)勢(shì)是什么?劣勢(shì)又是什么?智能內(nèi)容生成除了批量化生成內(nèi)容和低成本外,在電商三要素"人""貨""場(chǎng)"角度都有明顯的優(yōu)勢(shì):
貨:機(jī)器對(duì)商品有更深的理解,生成的內(nèi)容可以有遠(yuǎn)超達(dá)人的信息量。這也是我們最大的point所在,“機(jī)器的優(yōu)勢(shì)不在于可以說(shuō)一段類似達(dá)人流暢的話,更在于說(shuō)出達(dá)人說(shuō)不出的干貨”。達(dá)人對(duì)商品了解的信息量實(shí)際很有限,而我們擁有淘寶的海量靜態(tài)和行為數(shù)據(jù),可以全面、精準(zhǔn)和即時(shí)的感知商品信息和流行趨勢(shì)變化,真正的數(shù)據(jù)生成文本。
人:機(jī)器可以做到個(gè)性化的內(nèi)容生成。從對(duì)用戶理解出發(fā),我們有非常精細(xì)的UserProfile,知道用戶的喜歡哪些賣點(diǎn),個(gè)性化內(nèi)容推送的基礎(chǔ)是有個(gè)性化的內(nèi)容生成,達(dá)人一般最多做到“場(chǎng)”粒度,顯然極難做到個(gè)性化粒度。
場(chǎng):不同場(chǎng)景下,機(jī)器可以靈活的定制生成內(nèi)容的樣式風(fēng)格和所依賴的底層商品池。
機(jī)器的劣質(zhì)其實(shí)也很明顯,盡管深度學(xué)習(xí)技術(shù)對(duì)智能內(nèi)容生成的發(fā)展有了很大的推動(dòng),但其本質(zhì)還是沒(méi)有脫離從海量數(shù)據(jù)中統(tǒng)計(jì)學(xué)習(xí)的思路,無(wú)法從小樣本學(xué)習(xí),并且學(xué)習(xí)的空間其實(shí)是相對(duì)世界的一個(gè)非常小的子集,也基本無(wú)法做到像達(dá)人一樣旁征博引,可以生成更有創(chuàng)造力的文案。
1.4 項(xiàng)目目標(biāo)是什么?其實(shí)寫出一段流暢的類似達(dá)人的內(nèi)容文本并非難事,甚至簡(jiǎn)單的N-Gram模型中也能挑出一些有意思的話,更大的考驗(yàn)在于如果在工業(yè)界的線上場(chǎng)景穩(wěn)定上線,需要很高的準(zhǔn)確率和一套完善的質(zhì)量提升方案。項(xiàng)目目標(biāo)是能夠delivery一套智能內(nèi)容生成的高質(zhì)量、系統(tǒng)化的解決方案,在搜索場(chǎng)景和搜索外場(chǎng)景拓展應(yīng)用,并為未來(lái)更好的發(fā)展內(nèi)容生成技術(shù)打好基礎(chǔ)。
二、NLG問(wèn)題綜述
智能內(nèi)容生成在學(xué)界相關(guān)領(lǐng)域?yàn)镹LG,NLG任務(wù)的目標(biāo)是根據(jù)輸入數(shù)據(jù)生成自然語(yǔ)言文本,在NLP領(lǐng)域我們接觸更多的是NLU(Nature Language Understanding,如命名實(shí)體識(shí)別、文本分類等)類任務(wù),NLU的目標(biāo)則將自然文本轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),顯然,NLG和NLU是一對(duì)相反的過(guò)程。
NLG本身其實(shí)是一個(gè)很寬泛的概念,如下圖所示,廣義上來(lái)講只要輸出端是自然語(yǔ)言文本的很多任務(wù)都屬于這個(gè)范疇,除了結(jié)構(gòu)化數(shù)據(jù)到文本的Data2Text任務(wù),比如機(jī)器翻譯、文本摘要等Text2Text類任務(wù),ImageCaptioning等Image2Text類的任務(wù)都是NLG。在學(xué)界有關(guān)NLG最權(quán)威的定義是“根據(jù)非文本型的信息生成的自然文本的過(guò)程”(Reiter & Dale, 1997, 2000),是狹義上講的NLG,特指Data2Text(完全等同于Data2Seq),即輸入端為Data(結(jié)構(gòu)化數(shù)據(jù))輸出端為Seq(自然語(yǔ)言文本)。比如根據(jù)溫度、風(fēng)向等測(cè)量數(shù)據(jù)生成天氣預(yù)報(bào)文本是Data2Seq的一個(gè)經(jīng)典范例。
事實(shí)上,Data2Seq領(lǐng)域在工業(yè)界有著非常大的應(yīng)用價(jià)值,應(yīng)用領(lǐng)域如天氣預(yù)報(bào)、體育報(bào)道、財(cái)經(jīng)新聞和醫(yī)療報(bào)告等。一些典型的公司如Automated Insights已經(jīng)撰寫了超過(guò)3億篇財(cái)經(jīng)體育等領(lǐng)域報(bào)導(dǎo),下圖是其根據(jù)Amazon的財(cái)報(bào)數(shù)據(jù)自動(dòng)生成一篇文章的范例,國(guó)外其他知名的NLG公司還有ARRIA、NarrativeScience。
我們做智能內(nèi)容生成項(xiàng)目最大的初心所在,我們的目標(biāo)不僅僅是為了寫出一些達(dá)人能寫的描述,更在乎既然今天的淘寶擁有如此多的用戶數(shù)據(jù)、商品數(shù)據(jù)和行為數(shù)據(jù),有足夠好的計(jì)算基礎(chǔ)設(shè)施,我們能夠知道消費(fèi)者關(guān)注什么,知道哪些商品好,好在哪里,我們更要去用好這些data,驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新,也許是一個(gè)產(chǎn)品或品牌綜述,也許是多商品對(duì)比評(píng)測(cè),項(xiàng)目名字之所以叫“阿士比亞”,也正是我們期望他能成為“阿里的莎士比亞”。
傳統(tǒng)的NLG的實(shí)現(xiàn)套路是將整個(gè)文本內(nèi)容生成過(guò)程設(shè)計(jì)為宏觀規(guī)劃、微觀規(guī)劃和表層實(shí)現(xiàn)三個(gè)獨(dú)立的模塊串接而成的pipeline,如下圖所示,系統(tǒng)的輸入分為兩部分,一部分是在原始數(shù)據(jù)中發(fā)現(xiàn)的pattern,類比于我們下文將介紹的智能素材庫(kù);另一部分是文本生成Goal,類似下文將展開介紹的Data2Seq模型的Control部分,比如在天氣預(yù)報(bào)場(chǎng)景中Goal可以是綜述過(guò)去N-day的溫度還是進(jìn)行預(yù)測(cè)未來(lái)N-day天氣,目標(biāo)不同則后續(xù)的宏觀規(guī)劃甚至微觀規(guī)劃也不相同。具體到文本生成pipeline里面,宏觀規(guī)劃階段解決“說(shuō)什么”的問(wèn)題,微觀規(guī)劃和表層實(shí)現(xiàn)則是解決“怎么說(shuō)”的問(wèn)題。具體的:
傳統(tǒng)NLG系統(tǒng)框架
宏觀規(guī)劃:也被稱為內(nèi)容規(guī)劃或文檔規(guī)劃,主要目標(biāo)是選擇出需要在文本內(nèi)提及的內(nèi)容和文檔結(jié)構(gòu),一般來(lái)講。類比到商品推薦理由生成里面,就是賣點(diǎn)選擇和賣點(diǎn)順序規(guī)劃過(guò)程。
微觀規(guī)劃:也被稱為句子規(guī)劃,顧名思義,就是在句子粒度的優(yōu)化,這個(gè)階段的輸入為宏觀規(guī)劃選中的內(nèi)容和結(jié)構(gòu),主要涉及到對(duì)句子進(jìn)行規(guī)劃以及句子實(shí)現(xiàn),要求最終實(shí)現(xiàn)的句子具有正確的語(yǔ)法、形態(tài)和拼寫,同時(shí)采用準(zhǔn)確的指代表達(dá)。
表層實(shí)現(xiàn):則是句子實(shí)現(xiàn)的最上層,類似于寫作中文筆潤(rùn)色過(guò)程。
顯然以上這種pipeline結(jié)構(gòu)的存在的最大問(wèn)題是將任務(wù)拆分成獨(dú)立幾個(gè)部分,也就是非端到端,這本身就損失了很多信息上限顯然并不高。實(shí)際上,盡管NLG領(lǐng)域的研究起源比較早,但在學(xué)術(shù)界長(zhǎng)期處于停滯狀態(tài),原因主要在于NLG是一個(gè)簡(jiǎn)單輸入復(fù)雜輸出的任務(wù),問(wèn)題的復(fù)雜度太大,至今沒(méi)能探索出一個(gè)準(zhǔn)確高且泛化能力強(qiáng)的方法,不少場(chǎng)景下整體甚至低于人工規(guī)則。
另外,NLG領(lǐng)域至今也沒(méi)有一個(gè)客觀且準(zhǔn)確的優(yōu)化目標(biāo)或者說(shuō)評(píng)估標(biāo)準(zhǔn),這也是限制該領(lǐng)域發(fā)展的重要原因。目前的主流的評(píng)估方法分兩類:人工評(píng)測(cè)和基于數(shù)據(jù)評(píng)估。人工評(píng)測(cè)的維度主要是流暢度、可讀性、信息量、正確性和冗余度;基于數(shù)據(jù)的評(píng)估主要有三個(gè)思路,基于n-gram匹配的BLUE和ROUGE等,基于字符距離的Edit Distance等和基于內(nèi)容Coverage比率的Jarcard距離等?;跀?shù)據(jù)的評(píng)測(cè)在NMT場(chǎng)景還有一定意義,這也是NMT領(lǐng)域最先有所突破的一個(gè)重要原因,但在內(nèi)容生成場(chǎng)景基本意義不大了,無(wú)法給出真正有意義的度量,我們?cè)趯?shí)際項(xiàng)目中基本依賴人工評(píng)測(cè)和分析為主。
近年來(lái),隨著深度學(xué)習(xí)在廣義NLG問(wèn)題上特別是NMT(Nerual Machine Translation)、Text Summarization領(lǐng)域的突破,基于深度學(xué)習(xí)的端到端的Data2Seq類模型的研究也越來(lái)越多,本文介紹的生成式內(nèi)容生成模型Data2Seq正是處于這樣一個(gè)背景,第六章節(jié)會(huì)詳細(xì)闡述。另外,借鑒于文本摘要領(lǐng)域抽取式和生成式兩種方法的思路,結(jié)合淘寶商品數(shù)據(jù)實(shí)際,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了一套基于詳情頁(yè)的抽取式內(nèi)容生成方法,將在本文第七章節(jié)詳細(xì)闡述。
三、現(xiàn)階段的產(chǎn)品形態(tài)
項(xiàng)目組現(xiàn)階段的產(chǎn)出是以商品單品的推薦理由為主,因此我們從覆蓋商品數(shù)量角度出發(fā)定義了兩種產(chǎn)品形態(tài),即:?jiǎn)纹返耐扑]理由和多商品的智能清單。在這里提前做下產(chǎn)品形態(tài)的簡(jiǎn)單介紹,這樣大家讀起來(lái)會(huì)更加有體感。3.1 單品推薦理由顧名思義,就是有關(guān)單個(gè)商品核心賣點(diǎn)的描述。我們又從文本長(zhǎng)度特征出發(fā)將單品推薦理由區(qū)分成兩類:?jiǎn)纹返囊痪湓拰?dǎo)購(gòu)短句和多句話短篇推薦理由。下圖是我們8月份在搜索-挑尖貨場(chǎng)景全量的一句話導(dǎo)購(gòu)短句的應(yīng)用實(shí)例。
單品推薦理由線上效果示意圖
3.2 多商品智能清單智能清單覆蓋商品數(shù)量一般在10-20個(gè)左右,清單內(nèi)的單品介紹一般類似于單品短篇推薦理由,長(zhǎng)度大致在30-40個(gè)字居多。智能清單內(nèi)除了單品短篇推薦理由,還包括清單選品,清單標(biāo)題兩部分。此外清單內(nèi)的商品推薦理由不同于單品推薦理由的一點(diǎn)是,它既需要考慮清單的主題保持一致性,又要同時(shí)考慮其他商品生成的推薦理由以避免重復(fù)從而保證多樣性。
智能清單線上產(chǎn)品形態(tài)
四、整體技術(shù)方案綜述
下圖所列的是智能內(nèi)容生成項(xiàng)目的整體框架。在上文的NLG綜述中已經(jīng)介紹過(guò),內(nèi)容生成的輸入部分有兩個(gè),一個(gè)是下圖中的智能素材庫(kù),是內(nèi)容生成的底料來(lái)源,另一部分生成目標(biāo)則被集成到我們Data2Seq模型中了,在本文第六章節(jié)Data2Seq模型部分會(huì)詳細(xì)介紹。而內(nèi)容生成核心問(wèn)題兩大核心問(wèn)題說(shuō)什么(What to Say)和怎么說(shuō)(How to Say),即宏觀規(guī)劃、微觀規(guī)劃和表層實(shí)現(xiàn)在我們的方案中全部融入到深度學(xué)習(xí)的端到端模型中,同樣會(huì)在第六章節(jié)詳細(xì)展開。
智能內(nèi)容生成系統(tǒng)框架庫(kù)
上圖主要包括智能素材庫(kù)和智能內(nèi)容兩個(gè)部分,接下來(lái)分別做下介紹:4.1 基于知識(shí)圖譜和統(tǒng)計(jì)挖掘的智能素材庫(kù)智能素材庫(kù)中主要包括商品相關(guān)的動(dòng)態(tài)和靜態(tài)兩類信息,靜態(tài)信息比如商品的品牌、風(fēng)格、款式等,動(dòng)態(tài)信息則是類似于流行趨勢(shì)、人群偏好、促銷優(yōu)惠等。其中靜態(tài)信息的獲取是基于知識(shí)圖譜的商品理解模塊對(duì)商品的標(biāo)題、屬性、詳情等文本進(jìn)行理解的結(jié)果;動(dòng)態(tài)信息則是基于用戶的行為日志和靜態(tài)信息的分析結(jié)果統(tǒng)計(jì)挖掘得到的。智能素材庫(kù)里商品的每個(gè)維度的靜態(tài)信息和動(dòng)態(tài)信息我們統(tǒng)一定義為Topic,又因?yàn)槿縼?lái)源于商品,下文用”Item Topics“或“商品賣點(diǎn)”代指智能素材庫(kù)中商品的動(dòng)態(tài)靜態(tài)的結(jié)構(gòu)化信息。智能素材庫(kù)的用戶有兩個(gè),一個(gè)是提供給達(dá)人,達(dá)人寫作過(guò)程中作為參考用,目前已經(jīng)在達(dá)人平臺(tái)上線;另一個(gè)就是提供給智能內(nèi)容生成訓(xùn)練和預(yù)測(cè)數(shù)據(jù)中的Item Topics部分。4.2 智能內(nèi)容生成智能內(nèi)容生成部分的核心是Data2Seq模型,它的訓(xùn)練數(shù)據(jù)輸入包括部分:來(lái)自素材庫(kù)的Item Topics和基于知識(shí)圖譜的內(nèi)容理解分析的達(dá)人內(nèi)容的Target Topics,目標(biāo)則是達(dá)人內(nèi)容。模型部分除了Data2Seq模型,還有基于知識(shí)圖譜的Evaluator模型,事實(shí)上Evaluator模型不僅僅工作在預(yù)測(cè)Seq生成階段生效,在訓(xùn)練數(shù)據(jù)和目標(biāo)的的預(yù)處理和過(guò)濾同時(shí)生效。此外,整個(gè)訓(xùn)練基于Pai-Tensorflow平臺(tái)進(jìn)行。以上便是項(xiàng)目的整體技術(shù)框架,接下來(lái)會(huì)分別詳細(xì)闡述。
五、智能素材庫(kù)
智能素材庫(kù)的作用前面已經(jīng)講的比較多了,該部分主要介紹下商品賣點(diǎn)設(shè)計(jì)、靜態(tài)信息計(jì)算的基于圖譜的商品&內(nèi)容理解和動(dòng)態(tài)信息計(jì)算中的統(tǒng)計(jì)挖掘的方法的一些細(xì)節(jié)。5.1 商品賣點(diǎn)設(shè)計(jì)
如下圖所示,商品賣點(diǎn)素材信息包括靜態(tài)信息和動(dòng)態(tài)信息兩部分。靜態(tài)部分主要包括商品的基礎(chǔ)屬性元素,如品牌、款式、風(fēng)格以及這些屬性元素相關(guān)的擴(kuò)展信息,比如品牌的調(diào)性、產(chǎn)地,店鋪的資質(zhì)等,這一部分的信息依賴知識(shí)圖譜和基于其的商品理解。動(dòng)態(tài)部分包括促銷活動(dòng)、上新、成交分布和趨勢(shì)、評(píng)價(jià)、搭配和LBS等,其中成交分布和趨勢(shì)的細(xì)分到屬性粒度依賴靜態(tài)信息的理解結(jié)果,典型的動(dòng)態(tài)信息比如”最近一個(gè)月口紅的流行顏色趨勢(shì)“信息。目前我們基本已經(jīng)涵蓋主要類目的靜態(tài)信息分析,動(dòng)態(tài)信息上主要集中在成交分布&趨勢(shì)和上新方面。
5.2 基于知識(shí)圖譜的商品理解和內(nèi)容理解
知識(shí)圖譜概覽:我們內(nèi)部稱之為“云壤知識(shí)庫(kù)”。云壤內(nèi)涵蓋兩類知識(shí):詞條和關(guān)系。詞條知識(shí)覆蓋淘寶電商相關(guān)的30種類型知識(shí)(如品牌、材質(zhì)、款式、風(fēng)格、功能功效、人群等等)目前詞條數(shù)量1891w(其中品牌詞58.8w,品類詞8w,風(fēng)格詞3.6k,產(chǎn)地詞3.8k,圖案詞10w,人群詞360等)。關(guān)系數(shù)據(jù)包括同義關(guān)系、上位關(guān)系、下位關(guān)系、沖突關(guān)系、父子品牌關(guān)系等類型,5636w+條關(guān)系。知識(shí)圖譜相應(yīng)的詞條和關(guān)系的挖掘算法等接下來(lái)會(huì)有專門文章介紹,在這里就不再詳細(xì)展開了。
目前知識(shí)圖譜主要支持的線上業(yè)務(wù)是主搜索的query理解、屬性相關(guān)性(“絲綢之路”)、產(chǎn)品庫(kù)和平臺(tái)治理負(fù)向發(fā)布端管控、搜索端管控等。下圖是云壤知識(shí)庫(kù)的前端界面。
云壤知識(shí)庫(kù)前端界面
基于知識(shí)圖譜的詞條和關(guān)系,我們有一套商品理解和內(nèi)容理解系統(tǒng),核心模塊包含詞條匹配和消歧兩個(gè)模塊,其中消歧模型的主要技術(shù)方案見(jiàn)下,主要是基于雙向LSTM+CRF的思路實(shí)現(xiàn)的,同上詳細(xì)的細(xì)節(jié)在本文不展開了,后面的圖是商品理解結(jié)果的前端示意圖。
消歧技術(shù)方案
基于知識(shí)圖譜的商品理解結(jié)果示意圖
5.3 基于行為日志的統(tǒng)計(jì)挖掘
具體的方法是我們?cè)谏唐泛腿巳憾朔謩e挖掘標(biāo)簽,然后根據(jù)相互的笛卡爾積交叉得到各個(gè)維度計(jì)算排名和趨勢(shì)信號(hào)(其中趨勢(shì)信號(hào)用day-維度線性回歸即可),具體的計(jì)算過(guò)程見(jiàn)下圖。其中商品標(biāo)簽來(lái)源于基于知識(shí)圖譜的的商品理解結(jié)果;人群標(biāo)簽方面,我們主要依賴阿里巴巴數(shù)據(jù)超市的基礎(chǔ)Tag組合而成人群標(biāo)簽,下面的表是人群標(biāo)簽的幾個(gè)范例,標(biāo)簽別名是在生成內(nèi)容時(shí)為了增加多樣性而設(shè)置的不同說(shuō)法。
5.4 達(dá)人用戶視角的智能素材庫(kù)
最后簡(jiǎn)單介紹下提供給達(dá)人用的智能素材庫(kù)界面。如下圖所示,達(dá)人在給商品寫推薦理由時(shí),通過(guò)素材庫(kù)可以獲得商品相關(guān)的靜態(tài)和動(dòng)態(tài)信息,比如品牌Slogan/品牌故事,用戶關(guān)心的問(wèn)題、評(píng)價(jià)熱點(diǎn)、詳情頁(yè)關(guān)鍵信息(數(shù)據(jù)由第七章節(jié)介紹抽取式詳情頁(yè)內(nèi)容生成支持)等,可以快速的建立對(duì)商品多維度理解。這樣一方面加快了達(dá)人寫作速度,另外也更好的為智能內(nèi)容寫手提供素材。
六、Data2Seq模型
該部分是基于深度學(xué)習(xí)的端到端解決方案,也是智能內(nèi)容生成中最為核心的部分。本章節(jié)將按AI三駕馬車:數(shù)據(jù)、算法和計(jì)算三個(gè)角度依次展開,其中計(jì)算方面的優(yōu)化我們和PAI-Tensorflow同學(xué)8月初開始立項(xiàng)合作優(yōu)化,本文只關(guān)注在數(shù)據(jù)和算法部分,有關(guān)計(jì)算優(yōu)化的詳細(xì)介紹請(qǐng)關(guān)注后續(xù)九豐和慕琢的項(xiàng)目分享。
6.1 數(shù)據(jù)訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量的對(duì)深度學(xué)習(xí)類任務(wù)的重要性就無(wú)須贅述了。有足夠大數(shù)據(jù)量且質(zhì)量足夠好的訓(xùn)練數(shù)據(jù)之后,簡(jiǎn)單模型也足以取得相當(dāng)好的baseline,數(shù)據(jù)也是一切復(fù)雜模型的基礎(chǔ)。具體介紹下我們?cè)谏唐穯纹吠扑]理由訓(xùn)練數(shù)據(jù)的處理方法:
訓(xùn)練數(shù)據(jù)量:我們通過(guò)官方渠道背書和優(yōu)質(zhì)達(dá)人的數(shù)據(jù)擴(kuò)展訓(xùn)練數(shù)據(jù)。
官方渠道:有好貨、極有家、淘寶頭條、手淘行業(yè)其他卡片、清單商品推薦理由等。
優(yōu)質(zhì)達(dá)人:實(shí)際上,很多達(dá)人是不停在平臺(tái)生成內(nèi)容的,但生產(chǎn)的內(nèi)容中很多并沒(méi)有被官方渠道選中,也或許他們生產(chǎn)內(nèi)容的動(dòng)力不僅在于投稿也在于粉絲關(guān)注,我們根據(jù)達(dá)人的粉絲、歷史招投稿信息等圈中了優(yōu)質(zhì)達(dá)人,把這些達(dá)人每天的單品推薦理由內(nèi)容設(shè)置為候選集。這些數(shù)據(jù)的增量還是非??捎^的,貢獻(xiàn)了約一半的訓(xùn)練數(shù)據(jù)量。
訓(xùn)練數(shù)據(jù)質(zhì)量:事實(shí)上,原始訓(xùn)練數(shù)據(jù)的質(zhì)量遠(yuǎn)沒(méi)有那么理想,除了一些語(yǔ)法錯(cuò)誤外,有很多推薦理由甚至是商品原始標(biāo)題,特別是優(yōu)質(zhì)達(dá)人來(lái)源數(shù)據(jù)質(zhì)量更是非常低。因此這個(gè)部分我們開發(fā)了比較系統(tǒng)化的插件式的Evaluator模型,用于處理和過(guò)濾訓(xùn)練數(shù)據(jù),主要包括預(yù)處理和判別模塊。
預(yù)處理:基礎(chǔ)的繁簡(jiǎn)轉(zhuǎn)換、大小寫歸一之外,對(duì)語(yǔ)法或冗余字符也做了過(guò)濾處理。
判別:判別模塊我們主要解決堆砌重復(fù)問(wèn)題、badPattern、低置信語(yǔ)法和標(biāo)點(diǎn)規(guī)范等維度問(wèn)題。
最終我們使用的有效可用的推薦理由訓(xùn)練數(shù)據(jù)量超過(guò)1600w,基本已經(jīng)達(dá)到了目前淘寶平臺(tái)可用訓(xùn)練數(shù)據(jù)的極限。6.2 模型Data2Seq領(lǐng)域近年的發(fā)展主要得益于參考NMT領(lǐng)域的突破,下圖是NMT中標(biāo)準(zhǔn)的Encoder-Decoder結(jié)構(gòu),在Encoder階段把輸入序列的信息通過(guò)RNN_forward encoder到固定向量h_|F|中,decoder階段根據(jù)h_|F|逐個(gè)解碼得到輸出序列。
但是標(biāo)準(zhǔn)的Encoder-Decoder結(jié)構(gòu)中把源端信息都通過(guò)RNN_forward encoder到固定大小的向量中,但RNN本身存在長(zhǎng)距離依賴問(wèn)題,且把任意長(zhǎng)度句子都encoder到固定長(zhǎng)度會(huì)導(dǎo)致句子太長(zhǎng)時(shí)無(wú)法充分表達(dá)源文本信息,句子太短時(shí)不但浪費(fèi)存儲(chǔ)和計(jì)算資源,而且容易過(guò)擬合。顯然這時(shí)候該Attention登場(chǎng)了,Attention機(jī)制允許解碼時(shí)動(dòng)態(tài)搜索源文本中與預(yù)測(cè)目標(biāo)詞相關(guān)的部分,很好的解決了上面的問(wèn)題。下圖就是大家都比較熟悉的Bahdanau-Attention對(duì)齊模型的算法原理和對(duì)齊效果示意圖,不展開介紹了。
我們的Data2Seq(D2S)模型,雖然主要借鑒與NMT的Attention-based Seq2Seq模型,核心的框架同樣也是Encoder-Decoder,但深入思考下兩個(gè)任務(wù)的特點(diǎn),我們不難發(fā)現(xiàn)D2S與NMT有著比較大的差異,也正是這些差異決定了我們不能只是簡(jiǎn)單的拿NMT領(lǐng)域適用的Encoder-Decoder結(jié)構(gòu)去理解D2S模型。下面是NMT和D2S對(duì)比圖:
NMT相對(duì)D2S的最大不同在于它的任務(wù)中輸入輸出基本可以理解為一一對(duì)應(yīng)的,且是可逆的。比如上圖中中譯英的例子,"團(tuán)結(jié)就是力量"和"Union is strength"之間是可逆的,也就意味著他們?cè)谝粋€(gè)虛擬的“世界語(yǔ)”語(yǔ)義空間共享同一個(gè)編碼,這也是為什么NMT可以做遷移學(xué)習(xí)的一個(gè)重要原因,即有了中譯英和中譯法可以很容易翻譯出英譯法。
而在D2S任務(wù)中,即便是完全相同的輸入,不同的輸出都可能是對(duì)的,也就是說(shuō)輸入輸出是一對(duì)多的,顯然輸出文本不可能再還原回輸入文本了。這個(gè)很容易理解,比如同一商品,不同的達(dá)人選擇的賣點(diǎn)和最終介紹的文本可以完全不同,但都可能是正確的。從這個(gè)角度出發(fā),在輸入端額外設(shè)計(jì)控制條件是由D2S模型一對(duì)多的特點(diǎn)所決定的,甚至是必須的,模型最終因此擁有的控制能力則是果而非因,絕非為了控制而控制。從另外一個(gè)角度去理解,Control部分實(shí)際對(duì)應(yīng)的是第三部分講的傳統(tǒng)NLG流程里面的Communicative Goal模塊。
所以基于以上考慮,我們提出了把整個(gè)D2S模型劃分為Data/Seq/Control三個(gè)部分:
Data端:涉及數(shù)據(jù)的表達(dá)和建模的方式,也就是素材庫(kù)內(nèi)容如何體現(xiàn)。這部分會(huì)介紹下Data端的Encoder方法,重點(diǎn)介紹下我們?cè)跀?shù)據(jù)端的測(cè)試的三種模式以及動(dòng)態(tài)數(shù)據(jù)的訓(xùn)練。
Seq端:核心在于文本序列生成能力,一般來(lái)講,最簡(jiǎn)單的Seq端就是N-Gram模型。Seq端指的是基于RNN(或其變形LSTM/GRU)的語(yǔ)言模型,我們?cè)谶@里可以玩的是decoder設(shè)計(jì)更復(fù)雜或更精巧的模型、使用更多更準(zhǔn)確的訓(xùn)練數(shù)據(jù),使得模型具備強(qiáng)大的表達(dá)能力。主要會(huì)介紹下深度殘差連接網(wǎng)絡(luò)的應(yīng)用。
Control端:這也是D2S中特有且非常重要的部分,上文也提到了生成一段流暢的話向來(lái)不是難點(diǎn),重要的是如何從不同維度精準(zhǔn)的控制Seq端的生成,分別介紹下重復(fù)問(wèn)題控制、結(jié)果正確性、確保主題相關(guān)、長(zhǎng)度控制、風(fēng)格控制、賣點(diǎn)選擇控制、多樣性控制等,這也是NLG領(lǐng)域研究的熱點(diǎn)所在。實(shí)現(xiàn)這樣的控制,既需要在模型的Encoder和Decoder端同時(shí)發(fā)力,同時(shí)需要在解碼預(yù)測(cè)同時(shí)控制。
下圖是D2S模型的整體結(jié)構(gòu),我們實(shí)際采用的模型是這個(gè)模型結(jié)構(gòu)的子集,encoder端分為兩部分,encoder的方法包括RNN/CNN和簡(jiǎn)單的Embedding,decoder端生成文本時(shí)通過(guò)Attention機(jī)制進(jìn)行賣點(diǎn)選擇,控制信號(hào)在DecoderRnn的輸入端和預(yù)測(cè)下一次詞的Softmax層之前參與控制。接下來(lái)按照Data/Seq/Control端的順序分別介紹下我們的工作,最后再簡(jiǎn)單介紹下我們?cè)谇鍐紊煞矫娴墓ぷ鳌?/p>
D2S模型整體結(jié)構(gòu)
6.2.1 Data端
6.2.1.1 Data的表示如下圖中所示,D2S中輸入數(shù)據(jù)(即一個(gè)"賣點(diǎn)"或"Topic")通過(guò)Key和Value兩個(gè)field來(lái)進(jìn)行共同進(jìn)行表達(dá)。其中KEY是知識(shí)庫(kù)的詞條類型ID,即KID,Value是利用知識(shí)圖譜里面的同義詞知識(shí)歸一之后的詞條ID。比如商品原始文本有"Chanel",對(duì)應(yīng)模型的輸入topic為“KID=品牌;VAULE=香奈兒”。且除了KID識(shí)別和同義歸一之外,我們還利用知識(shí)圖譜本身的擴(kuò)展信息擴(kuò)充了商品Topic的覆蓋,比如對(duì)于對(duì)于香奈兒,我們還會(huì)擴(kuò)展出“品牌產(chǎn)地:法國(guó)”“品牌檔次:奢侈品”等信息,以此豐富我們的輸入信息。
KID識(shí)別和同義歸一的處理則有兩個(gè)好處,首先KID的引入賦予了模型很強(qiáng)的泛化能力,能夠起到類似于"模板"的功能,對(duì)于一個(gè)稀有的Value,我們能夠通過(guò)KID知道該如何表達(dá)和描述,后面將介紹的動(dòng)態(tài)信息的訓(xùn)練中也正是借助KID實(shí)現(xiàn)的,其實(shí)本質(zhì)上其實(shí)也是實(shí)現(xiàn)了Copy機(jī)制;其次,Value經(jīng)過(guò)同義詞歸一之后,噪音數(shù)據(jù)更少,使得模型學(xué)起來(lái)更加容易,因?yàn)镈ata端更關(guān)心的是語(yǔ)義signal而非表達(dá)多樣性,語(yǔ)義歸一的必要性自然是非常必要的選擇。
在模型內(nèi)的具體語(yǔ)義表達(dá)方面,topic的Key和Value分別有一個(gè)獨(dú)立的EmbeddingDict分別獲得其語(yǔ)義維度的表示,兩者concat起來(lái)得到的是模型內(nèi)topic的表示。而對(duì)于整個(gè)輸入的表示,我們共對(duì)比測(cè)試了三種模式的encoder方法:RNN、CNN和Concat,最終使用的方案是Concat模式,即只用topic的Key和Value的Embedding語(yǔ)義編碼作為encoder階段的輸出,輸入端不用RNN或CNN提取feature。
Encoder用的Concat模式,乍聽起來(lái)比較奇怪,這里面除了降低計(jì)算復(fù)雜度的考慮之外,最重要的原因是RNN和CNN本質(zhì)上都是通過(guò)捕獲局部相關(guān)性而起作用的,具體到自然語(yǔ)言領(lǐng)域,提取的是類似n-gram的信息。然而在Data2Seq模型的設(shè)計(jì)中,事實(shí)上不同的topic之間是獨(dú)立的且無(wú)序的,而CNN和RNN模型是無(wú)法在這樣的無(wú)序的假設(shè)條件下work的,否則對(duì)于同一輸入,擾亂順序后捕獲的語(yǔ)義表示就變了,顯然不是我們希望的。實(shí)際數(shù)據(jù)的測(cè)試也印證了我們的假設(shè),即便在我們不太認(rèn)可的ROUGE指標(biāo)上和mle loss,RNN模型并沒(méi)有體現(xiàn)明顯優(yōu)勢(shì),具體的實(shí)驗(yàn)數(shù)據(jù)還需要重新回歸。6.2.1.2 Data的內(nèi)容和結(jié)構(gòu)
解決了Data的表示后,Data包含哪些內(nèi)容,采用什么結(jié)構(gòu)就是亟待要解決的問(wèn)題了。我們參考了類似百度寫詩(shī)的paper的做法,設(shè)計(jì)了一個(gè)Planning-Based的D2S模型。百度寫詩(shī)的訓(xùn)練數(shù)據(jù)見(jiàn)下圖,其直接在目標(biāo)內(nèi)容(即詩(shī)句)中用textRank方法提取KeyWord(下圖第一列)作為Data部分,之前的詩(shī)句作為Context進(jìn)行訓(xùn)練。在預(yù)測(cè)階段(下面第二張圖)用戶的Query經(jīng)過(guò)Keyword Extraction & Keyword Expansion階段后規(guī)劃處四個(gè)Keyword,然后逐步生成每行詩(shī)。
這種結(jié)構(gòu)看起來(lái)還是很通暢的,好處是可以借助知識(shí)圖譜進(jìn)行Keyword擴(kuò)展,如下圖所示,輸入“奧巴馬”也可以規(guī)劃“西風(fēng)/巴馬”“總統(tǒng)”“美國(guó)”“民主”。但這種方法存在最大的問(wèn)題也恰恰是Planning的難度很高,另外詩(shī)歌場(chǎng)景前后兩句盡管有關(guān)聯(lián),本質(zhì)上還是有可以一定程度斷開的獨(dú)立的,所以不管是百度寫詩(shī)還是微軟小冰寫詩(shī)都可以用這樣的結(jié)構(gòu),但我們的商品推薦理由則是連續(xù)的一段話,不能在這個(gè)層面運(yùn)用Planning-Based的方法,但可以嘗試比如在段落粒度運(yùn)用Planning。
具體實(shí)踐中我們發(fā)現(xiàn),Planning-Based的方法好處自然是我們可以任意的控制topic,但存在的具體的問(wèn)題第一是規(guī)劃出的topic之間的搭配會(huì)導(dǎo)致較多不通順的case;另外就是這種模式只能學(xué)到直接的關(guān)系,比如輸入topic是“五分褲”,生成的文本基本很難出現(xiàn)“半褲”這樣的相近詞,也就是模型有點(diǎn)“直”。為了解決這個(gè)問(wèn)題,下圖是后來(lái)我們?cè)贒ata端的內(nèi)容和結(jié)構(gòu)做的設(shè)計(jì):
如上圖,DATA部分總共有兩個(gè)來(lái)源,一個(gè)是圖中藍(lán)色部分來(lái)自商品理解后的結(jié)果,另一個(gè)是來(lái)自目標(biāo)文本內(nèi)容理解后的結(jié)果,且兩部分有一定的交集。Planning-Base mode就是我們前面講的,Data結(jié)構(gòu)分成兩部分,一部分是核心topics,另一部分是context topics;第二三種模式都是只有一層扁平的輸入,區(qū)別是Item-Topics mode中topic全部來(lái)源于商品本身,而All-Topics mode則是匯聚了商品和目標(biāo)的結(jié)果。
最終在模型中選擇的是All-Topics mode,預(yù)測(cè)中用Item-Topics做預(yù)測(cè)。而終沒(méi)有用Item-Topics mode原因除了mle loss下降更明顯外,主要的原因是我們分析了下,實(shí)際上內(nèi)容里面的topics和商品的topics交集遠(yuǎn)沒(méi)有我們想象的高,大約只有20%左右,這就意味著模型會(huì)學(xué)到?jīng)]有賣點(diǎn)A但是還是寫出賣點(diǎn)A相關(guān)文本的模式,這種模式下就會(huì)導(dǎo)致很多生成的內(nèi)容和源賣點(diǎn)不匹配的case。而內(nèi)容提取的topics不完全存在于商品topics中是很好理解的,有些是達(dá)人通過(guò)圖片或很難提取信息的詳情頁(yè)獲取的,有差集是很正常的。
All-Topics mode最大貢獻(xiàn)在于確保預(yù)測(cè)結(jié)果的正確性,除此之外,這種方式相對(duì)Planning-Based mode最大的優(yōu)勢(shì)在于賦予了模型賣點(diǎn)選擇的能力,下圖是我們8月份在搜索-挑尖貨場(chǎng)景全量的一句話導(dǎo)購(gòu)短句的例子,同樣是短裙類目的商品,仔細(xì)看下四個(gè)商品的導(dǎo)購(gòu)短句,每個(gè)商品被提到的賣點(diǎn)都還是很有其獨(dú)特性的。
6.2.1.3 動(dòng)態(tài)Data的訓(xùn)練以上的針對(duì)的主要是靜態(tài)數(shù)據(jù)訓(xùn)練相關(guān)的設(shè)計(jì),而前文已講到,D2S模型的一個(gè)很重要point是通過(guò)動(dòng)態(tài)數(shù)據(jù)獲得更多的信息量,寫的更為干貨。但動(dòng)態(tài)數(shù)據(jù)本身的樣本標(biāo)注其實(shí)還是比較困難的,接下來(lái)以"流行趨勢(shì)"這類動(dòng)態(tài)數(shù)據(jù)的訓(xùn)練為例,簡(jiǎn)單介紹下我們的做法。
訓(xùn)練階段我們先通過(guò)先驗(yàn)規(guī)則和W2V語(yǔ)義相似度挖掘出流行趨勢(shì)相關(guān)的詞,比如”流行“ ”大熱“ ”熱門“等,然后將其所在短句最可能的賣點(diǎn)原來(lái)的KID置換成”KID=流行“,在預(yù)測(cè)階段則對(duì)從數(shù)據(jù)中挖掘到的流行的賣點(diǎn),將其KID替換成”流行“,生成的數(shù)據(jù)效果如下所示:
對(duì)于第一個(gè)商品我們將“KID=顏色 Value=深棕色“的KID替換成“KID=流行”之后,生成的單品推薦理由:“今年很流行這種深棕色的針織衫,很有女人味的一款套裝,穿在身上很顯身材,而且還能很好的拉長(zhǎng)腿部線條,很顯高哦 。”就非常準(zhǔn)確的描述了深棕色的流行趨勢(shì),做到了言之有據(jù),且有關(guān)流行趨勢(shì)的說(shuō)法還是比較豐富的。
當(dāng)然完全的把KID替換掉會(huì)導(dǎo)致商品丟失原始KID信息缺失,正在補(bǔ)一個(gè)采用雙KID相加后得到新KID方式的實(shí)驗(yàn)。6.2.2 Seq端
6.2.2.1 基礎(chǔ)的單層RNN-語(yǔ)言模型簡(jiǎn)單intro一下基礎(chǔ)的RNN-Language Model。語(yǔ)言模型本身是在計(jì)算一個(gè)句子E=e_1,e_2,...e_T(e_t是其中第t個(gè)詞)是自然語(yǔ)言的概率,語(yǔ)言模型的目標(biāo)是
,不難看出語(yǔ)言模型的核心問(wèn)題可以轉(zhuǎn)化成預(yù)測(cè) P(e_t|e_1~e_t-1),即根據(jù)e_1~e_t-1預(yù)估e_t,最簡(jiǎn)單是基于統(tǒng)計(jì)的n-gram LM(Language Model),即預(yù)估e_t時(shí)只考慮前面n-1個(gè)詞。下圖是基于Nerual Network的tri-gram LM,顯然在預(yù)估e_t時(shí)值需要考慮e_t-1, e_t-2即可。我們經(jīng)常用的Word2Vec正是NN-LM的lookup表的一個(gè)中間產(chǎn)物。
但顯然NN-LM無(wú)法擺脫他本質(zhì)是n-gram模型的缺陷,即建模的長(zhǎng)度有限最多只能使用前n-1個(gè)詞,且在上圖的concat模式下加大n個(gè)數(shù)量,由于前面各個(gè)位置的權(quán)重是一樣的反而會(huì)導(dǎo)致模型學(xué)習(xí)效果下降。實(shí)際上自然語(yǔ)言中,長(zhǎng)距離依賴的情況是非常常見(jiàn)的,比如下圖的例子中,預(yù)估"himself"和"herself"時(shí),顯然分別要依賴于句子最前面的"He"和"She"。
下圖便是RNN-LM的公式,m_t是第t-1個(gè)詞的Embedding結(jié)果,與NN-LM不同的是,RNN-LM的輸入只有一個(gè),原因是前面的信息都融入到h_t-1中了,這樣就不需要直接把更靠前的序列作為輸入了。當(dāng)然RNN本身存在梯度消失問(wèn)題,內(nèi)容生成模型的decoder端實(shí)際使用的是RNN的一個(gè)variant LSTM。
6.2.2.2 多層殘差連接網(wǎng)絡(luò)由于我們使用的訓(xùn)練數(shù)據(jù)量比較大,能夠支撐我們?cè)谀P偷膁ecoder階段進(jìn)行復(fù)雜模型、大容量模型的嘗試。我們?cè)龠@方面的主要嘗試從網(wǎng)絡(luò)寬度、網(wǎng)絡(luò)深度兩個(gè)角度出發(fā)。網(wǎng)絡(luò)寬度方面我們主要測(cè)試的是增加num_hidden size,效果還是比較明顯的,網(wǎng)絡(luò)深度方面我們測(cè)試的是下圖中的殘差連接方式的stacked RNN。
以下是不同版本的MLE loss上的變化,單層網(wǎng)絡(luò)-殘差連接方式loss下降說(shuō)明在預(yù)估前一個(gè)詞時(shí),直接將上一次詞作為輸入是有收益的,增加網(wǎng)絡(luò)寬度和深度loss都能有所降低,但受限于模型容量問(wèn)題,目前在16G的單卡GPU只能最大測(cè)試到num_hidden=100,4層的殘差網(wǎng)絡(luò)。
這個(gè)部分計(jì)劃嘗試下Densely Connected深層網(wǎng)絡(luò)和Recurrent Highway Networks,受其他項(xiàng)目?jī)?yōu)先級(jí)的擠壓暫時(shí)先hold住了,待后續(xù)實(shí)驗(yàn)后再補(bǔ)充。6.2.2.3 雙層RNN網(wǎng)絡(luò)的嘗試我們?cè)赟eq的網(wǎng)絡(luò)結(jié)構(gòu)方面做了下雙層RNN雙層Attention的嘗試,網(wǎng)絡(luò)結(jié)構(gòu)圖見(jiàn)下圖,核心點(diǎn)是在拆分出句子維度和詞維度的兩層RNN網(wǎng)絡(luò),同樣的在賣點(diǎn)選擇方面也是雙層Attention共同作用。之所以嘗試雙層RNN的原因是希望模型有更好的能在長(zhǎng)篇幅寫作能力,但暫時(shí)的實(shí)驗(yàn)效果并不是很明顯暫時(shí)hold住了,分析主要原因是推薦理由的訓(xùn)練數(shù)據(jù)不像詩(shī)歌類天然有好的斷句結(jié)果,達(dá)人的內(nèi)容的斷句質(zhì)量很差,對(duì)效果影響很大。
6.2.2.4 Copy機(jī)制Copy機(jī)制本質(zhì)上是在combine生成式和抽取式模型。在這方面學(xué)界有很多的研究涉及該領(lǐng)域,主要為了解決OOV(Out Of Vocabulary)詞的問(wèn)題。我們使用的做法把Pointer和Generator分離單獨(dú)訓(xùn)練一個(gè)Pointer/Generator swich概率網(wǎng)絡(luò),另外一種套路如上面的整體框圖所示,把源端的Attention向量的概率和每個(gè)詞的概率用P/G值加和求max,這種方法的原理是更合理,但訓(xùn)練起來(lái)非常慢,實(shí)際并沒(méi)有采用。
事實(shí)上,我們訓(xùn)練的數(shù)據(jù)足夠充分、網(wǎng)絡(luò)比較大的情況下,詞匯粒度OOV帶來(lái)的問(wèn)題比較少,詞粒度收益測(cè)試并不明顯。而在Copy機(jī)制更深層次的考慮方面,我們更想嘗試的是如何把抽取式的內(nèi)容生成和生成式內(nèi)容生成有機(jī)的結(jié)合起來(lái)。比如我們分析了下達(dá)人的推薦理由數(shù)據(jù)和詳情頁(yè)句子的交集還是比較高的,也就是說(shuō)達(dá)人在寫內(nèi)容時(shí)候也是”參考詳情頁(yè)的內(nèi)容“,這樣的”參考“動(dòng)作就是Copy機(jī)制需要承載的,遠(yuǎn)不是詞匯粒度的Copy而是句子或片段粒度的Copy。相信如果能解決好這個(gè)問(wèn)題,對(duì)內(nèi)容生成的技術(shù)領(lǐng)域的貢獻(xiàn)還是比較大的,這部分的工作我們還在推進(jìn)中,在這里暫時(shí)留白后續(xù)有結(jié)果后補(bǔ)充下。6.2.3 Control端
6.2.3.1 軟硬結(jié)合的控制策略在控制端,需要完成對(duì)目標(biāo)文本的控制,控制的策略總體上分為兩類:Soft類方法,即設(shè)計(jì)機(jī)制讓模型自己學(xué)習(xí)到對(duì)目標(biāo)的方法;Hard類方法,即在Decoder過(guò)程中進(jìn)行強(qiáng)干預(yù)。Soft類方法的好處是更能獲得一個(gè)整體效果比較高的提升,壞處是很難確保解決干凈。其實(shí)采用軟硬結(jié)合的方式做控制顯然是一個(gè)不需要過(guò)多論證的問(wèn)題,道理我們都懂,重要的在于方法論。
我們?cè)诰唧w的控制策略上主要依賴InputFeeding機(jī)制和預(yù)測(cè)的Decoder階段Evaluator模型兩種方法。
a). Soft方法:Inform機(jī)制
由于各個(gè)細(xì)分問(wèn)題的不同,在Soft方法上難有比較完全一致的的方法,但總歸大致的思路還是定義為InputForm機(jī)制,具體的做法如下圖所示,把控制信號(hào)在LSTM的輸入端和預(yù)估下一個(gè)詞的softmax層的輸入端生效,之所以在這兩個(gè)端同時(shí)生效還是有邏輯的:我們相信在RNN輸入能夠使得模型一定程度上感知目標(biāo)的動(dòng)態(tài)完成程度,Softmax端的輸入能夠讓模型始終感知最終目標(biāo)是什么,實(shí)際的效果也驗(yàn)證了這種方法的有效性。
b). Hard方法:Evaluator機(jī)制
在訓(xùn)練數(shù)據(jù)的質(zhì)量提升部分就提到過(guò)Evaluator模型,和這里是同一個(gè)模型。所謂Evaluator機(jī)制的Hard方法指的是在模型預(yù)測(cè)階段邊預(yù)測(cè)邊評(píng)估。
先簡(jiǎn)單intro下Decoder過(guò)程:文本生成的的預(yù)測(cè)過(guò)程是word by word的方式進(jìn)行的,每一步生成一個(gè)詞,面臨的選擇其實(shí)是整個(gè)詞匯空間,一般詞匯大小要到10w量級(jí),也就是每一步解碼都有10w中選擇,如果平均序列長(zhǎng)度n,最終候選序列也要10w的n次方可能,計(jì)算和存儲(chǔ)上是絕不可行的。實(shí)際常用的解碼方法是beam_search,每一步保留最優(yōu)的前M個(gè)最大概率序列,本質(zhì)上式壓縮版的維特比解碼。下圖所示的beam_search的beam_size=2,即每一步保留最佳的兩個(gè)序列,其他序列全部被剪枝掉(即下圖中X號(hào))。
beam_search剪枝的過(guò)程依賴的模型控制的Soft機(jī)制和LM共同作用的概率,我們?cè)O(shè)計(jì)的Evaluator機(jī)制工作在同一個(gè)維度。具體的,在評(píng)估候選序列是否保留時(shí),除了繼續(xù)考慮模型輸出的概率之外,額外增加下圖公式紅色部分的fuction_evaluator,函數(shù)輸入為已生成序列 e_1~t-1,具體的評(píng)估邏輯就取決于不同的控制目標(biāo),就比較有操作空間了。
6.2.3.2 重復(fù)問(wèn)題控制重復(fù)問(wèn)題在內(nèi)容生成領(lǐng)域是一個(gè)比較常見(jiàn)的問(wèn)題,問(wèn)題的根本來(lái)源在于經(jīng)典的Attention機(jī)制每次都是獨(dú)立的進(jìn)行Attention計(jì)算,沒(méi)有考慮歷史已經(jīng)生成的序列或Attention歷史,顯然是一種次優(yōu)的做法。Attention機(jī)制帶來(lái)的這個(gè)坑倒是給學(xué)界的研究帶來(lái)了不小的空間,簡(jiǎn)單介紹下我們解決重復(fù)問(wèn)題的機(jī)制,自然是Soft和Hard并行解決的。
Soft的方法主要是在Data端避免重復(fù)注意和在Seq端避免重復(fù)生成兩種套路。
a). Data端避免重復(fù)Attention:Coverage機(jī)制、Intra-temporal attention機(jī)制
Coverage概念來(lái)源于傳統(tǒng)機(jī)器翻譯方法里面保留已經(jīng)覆蓋翻譯的詞記錄的概念。我們采用的是一種”間接“的解決方法,如下圖公式,思路是保存下生成過(guò)程中已有的Attention權(quán)重向量,作為生成下一個(gè)詞的Attention計(jì)算的輸入,讓模型自己學(xué)習(xí)到避免重復(fù)的條件。NMT中還會(huì)增加一個(gè)Coverage loss,避免”過(guò)翻譯“和“欠翻譯”,需要注意的是內(nèi)容生成中只需要避免”過(guò)翻譯“即可。
另外一種比較直接的方法就是直接根據(jù)已有的累計(jì)Attention weight對(duì)計(jì)算Attention的Softmax層前的結(jié)果降權(quán),方法相對(duì)比較粗暴,并沒(méi)有對(duì)比測(cè)試。
b).Seq端避免重復(fù)生成:Intra-decoder attention機(jī)制
除了Data端避免重復(fù)注意外,對(duì)已生成的序列信息同樣需要inform模型,避免重復(fù)生成,我們?cè)O(shè)計(jì)的整體框架圖中的的DecContext就是在解決這個(gè)問(wèn)題。
c).Hard方法:三個(gè)維度的重復(fù)檢測(cè)
而Hard方法則是比較簡(jiǎn)單粗暴可依賴,我們對(duì)已生成序列進(jìn)行賣點(diǎn)維度重復(fù)檢測(cè)、常用連接詞重復(fù)檢測(cè)和n-gram重復(fù)檢測(cè)三部分,命中這三種任何一種重復(fù)檢測(cè)的序列的score將設(shè)置的非常低。實(shí)踐中,這種方法對(duì)我們整體的重復(fù)問(wèn)題的解決貢獻(xiàn)是最大的。6.2.3.3 語(yǔ)義正確性控制語(yǔ)義正確性的控制的soft方法在前文已經(jīng)提到,就是在訓(xùn)練模式上采用All-Topics模式,讓模型自己去學(xué)到賣點(diǎn)相關(guān)文本的生成需要在Data端有據(jù)可依的強(qiáng)條件,這點(diǎn)對(duì)我們語(yǔ)義正確性的貢獻(xiàn)還是很大的。
另外一個(gè)非常重要的解決語(yǔ)義錯(cuò)誤問(wèn)題的就是基于知識(shí)圖譜的Evaluator模型。具體的過(guò)程見(jiàn)下圖,知識(shí)圖譜中存儲(chǔ)有同義關(guān)系、上下位關(guān)系、沖突關(guān)系等多種類型的關(guān)系數(shù)據(jù),在beamSearch解碼過(guò)程中,候選詞和n-gram粒度的詞和源端進(jìn)行校驗(yàn),如果出現(xiàn)沖突關(guān)系則強(qiáng)制不出現(xiàn),比如下圖中的候選token ”夏天“和Data端的”春秋“沖突關(guān)系,而比如是上位關(guān)系,下圖Data端有”連衣裙“,生成”裙子“則是可以的,反之則不行。
利用知識(shí)圖譜解決語(yǔ)義正確的一個(gè)好處是可以引入其他數(shù)據(jù)源生成的信息進(jìn)行校驗(yàn),避免受數(shù)據(jù)偏差影響;另一個(gè)好處是實(shí)際的線上系統(tǒng)生效難免遇到badcase,利用補(bǔ)充知識(shí)的方式快速有效干預(yù)線上case實(shí)現(xiàn)一個(gè)很好的閉環(huán),是必須的。
具體的實(shí)踐中,我們與知識(shí)圖譜中的平臺(tái)治理業(yè)務(wù)維護(hù)的違禁詞打通,因?yàn)槟P蜕蓛?nèi)容是平臺(tái)背書,避免模型生成違禁信息,并且因?yàn)榭陀^屬性如品牌、材質(zhì)、功能功效、季節(jié)、顏色的錯(cuò)誤比起主觀屬性如風(fēng)格等的錯(cuò)誤影響更大,我們重點(diǎn)對(duì)客觀屬性的正確性問(wèn)題進(jìn)行了線下評(píng)測(cè)和知識(shí)補(bǔ)全。
6.2.3.4 品類相關(guān)控制品類相關(guān)性的控制我們單獨(dú)做了處理,在LSTM的輸入端和Softmax輸入端分別把葉子類目ID的signal輸入給模型,讓模型自己去學(xué)習(xí)到這些相關(guān)性,直接在loss上做處理反而效果不理想,也未必必要。
下圖分別背景墻瓷磚和女裝套裝兩個(gè)葉子類目的商品,topics中同樣包含”簡(jiǎn)約“,且描述都是”簡(jiǎn)約而不簡(jiǎn)單“的情況下,后面跟的描述則分別是”為你的家...“和”更具時(shí)髦感“則是受類目的影響較多。嚴(yán)格的情況下應(yīng)該對(duì)比有無(wú)類目控制的效果,實(shí)驗(yàn)成本比較高待后續(xù)補(bǔ)一下。
6.2.3.5 長(zhǎng)度控制長(zhǎng)度控制的方法和品類相關(guān)控制套路是一樣的。我們采用的是商品&內(nèi)容理解后的token作為詞,長(zhǎng)度的控制是也是在”token“粒度。雖然沒(méi)有精確的統(tǒng)計(jì)過(guò),但從我們看的case數(shù)據(jù)看,對(duì)token長(zhǎng)度的控制是非常精確,且不是簡(jiǎn)單的截?cái)唷O聢D是一個(gè)商品長(zhǎng)度控制在10/20/30/40/50 token的范例,顯然隨著長(zhǎng)度變長(zhǎng)所選擇賣點(diǎn)的數(shù)量也逐漸在增加。
6.2.3.6 風(fēng)格控制
這里的風(fēng)格控制并不是嚴(yán)格意義上單純的風(fēng)格控制,準(zhǔn)確的說(shuō)應(yīng)該是賣點(diǎn)選擇和風(fēng)格綜合的控制。原因是我們是依靠達(dá)人的UserID來(lái)實(shí)現(xiàn)風(fēng)格控制的,不同達(dá)人的寫作除了風(fēng)格不同外,選取的賣點(diǎn)可能不同。具體做法是:訓(xùn)練階段將文章數(shù)量超過(guò)100篇以上的達(dá)人ID Embedding到20維的向量空間中;預(yù)測(cè)階段用Kmeans方法聚合出不同簇的UserID代表不同風(fēng)格。
下圖是服飾類目最好的達(dá)人”追夢(mèng)的小丫“和其Embedding距離最遠(yuǎn)的簇中心”潮流匯bing“的同一商品的推薦理由對(duì)比,文本風(fēng)格其實(shí)是一個(gè)很難量化的概念,從我們統(tǒng)計(jì)數(shù)據(jù)看,以”追夢(mèng)的小丫“為UserID生成的內(nèi)容以”這款“作為開頭推薦理由比例只有20%,而”潮流匯bing“的這一數(shù)據(jù)則達(dá)到了82%。以此管中窺豹,認(rèn)為兩者的風(fēng)格的差異還是體現(xiàn)出來(lái)了。且從下面的文本對(duì)比看,”追夢(mèng)的小丫“文風(fēng)似乎更有渲染力一些。
我們認(rèn)為行業(yè)的最好達(dá)人生成內(nèi)容最有吸引力,所以我們默認(rèn)使用其UserID生成推薦理由。除此之外,我們同樣借用不同簇中心用戶賣點(diǎn)選擇的差異,用在清單維度多樣性上。
6.2.3.7 賣點(diǎn)選擇控制之所以需要做賣點(diǎn)選擇控制,主要用在下一小節(jié)的智能清單中。在All-Topics的模式下,模型的賣點(diǎn)選擇能力是通過(guò)Attention機(jī)制承載的,賣點(diǎn)的數(shù)量基本和長(zhǎng)度控制的長(zhǎng)度比較相關(guān)。
具體的實(shí)現(xiàn)控制的方法上,我們嘗試在訓(xùn)練階段有選擇的進(jìn)行0/1標(biāo)注是否被選擇到,并把這種先驗(yàn)的選擇輸入給模型的Attention計(jì)算部分,預(yù)測(cè)時(shí)通過(guò)0/1權(quán)重干預(yù),效果還是比較直接。另一個(gè)就是對(duì)于單純的不寫某個(gè)賣點(diǎn)的需求,我們采用的是概率Drop機(jī)制,按概率強(qiáng)制從預(yù)測(cè)Data中去掉即可。6.2.3.8 多樣性控制詳細(xì)內(nèi)容合并到清單多樣性中一起闡述。6.2.4 智能清單生成清單一般包括10-20個(gè)商品,核心依賴于單品推薦理由能力,但相對(duì)來(lái)講需要額外考慮多個(gè)商品間內(nèi)容的多樣性和一致性,且還有獨(dú)特的清單標(biāo)題生成和清單選品。目前我們的工作主要focus在解決清單多樣性和清單標(biāo)題生成問(wèn)題。6.2.4.1 清單多樣性清單多樣性主要解決的是生成多個(gè)商品推薦理由間的重復(fù)問(wèn)題,解決這個(gè)問(wèn)題的關(guān)鍵在于多商品間全局優(yōu)化。
我們采用的方法是預(yù)測(cè)時(shí)把相同清單的商品放到同一個(gè)batch中,batch_size即為清單商品數(shù),然后在Evaluator模型中維護(hù)當(dāng)前清單維度、所在類目維度在賣點(diǎn)、常用連接詞、N-Gram維度的統(tǒng)計(jì)計(jì)數(shù),然后根據(jù)出現(xiàn)次數(shù)以相應(yīng)概率drop掉某些token,具體的概率計(jì)算方法就是經(jīng)驗(yàn)值了。
再好好思考下為什么模型多個(gè)商品寫作時(shí)會(huì)出現(xiàn)重復(fù)問(wèn)題,根本原因在于解碼預(yù)測(cè)時(shí)采用的beam_search本質(zhì)上選擇的是概率最大的序列,是不考慮多樣性的,這就難怪會(huì)導(dǎo)致模型生成的結(jié)果在賣點(diǎn)、句式上有些雷同了。而另外一種依賴概率的random_search解碼方法在語(yǔ)句通順的效果卻不慎理想,因此在beam_search中輔以多維度進(jìn)行概率Drop的思路自然是合理的。
我們?cè)趯?shí)踐過(guò)程中發(fā)現(xiàn),D2S模型相同句式的case比較多,比如”讓“這個(gè)詞用的頻率最高,我們做了一個(gè)強(qiáng)制不生成”讓“出現(xiàn)的實(shí)驗(yàn),見(jiàn)下圖。從對(duì)比可見(jiàn),即便沒(méi)有最高頻的”讓“句式,模型仍然可以找到其他說(shuō)法,比如把”讓人“換成”給人“,甚至直接換一個(gè)說(shuō)法把”讓人愛(ài)不釋手“換成”深受廣大消費(fèi)者人的喜愛(ài)“。因此這樣的多樣性控制策略我們不僅在清單中生效,同樣在單品中進(jìn)行多樣性控制(即6.2.3.8部分)。
6.2.4.2 清單一致性清單一致性目的在于保持清單內(nèi)內(nèi)容和風(fēng)格的連貫,這部分的工作剛剛開始展開,后續(xù)有實(shí)驗(yàn)結(jié)論再回來(lái)填坑。6.2.4.3 清單標(biāo)題生成清單標(biāo)題的模型基本復(fù)用商品推薦理由的D2S框架,不同的是由于訓(xùn)練數(shù)據(jù)量遠(yuǎn)比推薦理由少,模型的復(fù)雜度下降了一個(gè)level。訓(xùn)練數(shù)據(jù)主要來(lái)源于達(dá)人的清單和頭條的標(biāo)題,Data是清單和頭條覆蓋商品的Topics,預(yù)測(cè)階段采用清單覆蓋商品的Topics作為輸入。清單標(biāo)題的風(fēng)格和推薦理由還是完全不同的,更加的寫意,隨性,富有渲染力!下圖是生成的清單標(biāo)題數(shù)據(jù)貼出來(lái)感受下。
6.2.4.4 清單選品目前的選品策略還比較基礎(chǔ),因?yàn)槲覀兒芏嗲鍐问窃谒阉鲌?chǎng)景生效,目前主要依賴query-category-user_tag維度的交叉,結(jié)合場(chǎng)景的底層商品池完成清單選品。當(dāng)然目前的選品策略中還有一個(gè)統(tǒng)一的優(yōu)質(zhì)商家的優(yōu)質(zhì)商品。同樣的暫不展開闡述了。6.3 計(jì)算D2S模型是基于PAI-Tensorflow平臺(tái)運(yùn)行的,模型比較重訓(xùn)練起來(lái)也是很消耗資源,為了加速迭代我們8月初開始和PAI-Tensorflow團(tuán)隊(duì)開展計(jì)算優(yōu)化的合作。分別在本地、分布式和預(yù)測(cè)進(jìn)行優(yōu)化。本地優(yōu)化累計(jì)提升了超過(guò)10倍以上的性能,意味著原本一個(gè)月的計(jì)算量,3天就搞定了,對(duì)D2S的快速迭代很是重要。
目前還在最后的優(yōu)化分布式性能,具體的細(xì)節(jié)還請(qǐng)期待九豐和穆琢的分享,后續(xù)補(bǔ)充鏈接。
七、詳情頁(yè)抽取模型
D2S模型是生成式的內(nèi)容生成模型,我們?cè)谏衔牡腃opy機(jī)制部分也提到,達(dá)人寫作過(guò)程中其實(shí)也是邊”造“邊”抄“的過(guò)程,”抄寫“的來(lái)源大部分是商品詳情頁(yè)。商品詳情頁(yè)本身是一個(gè)寶庫(kù),且是商品的詳細(xì)準(zhǔn)確描述,比如下圖所示的詳情頁(yè)顯然如果都是非常好的推薦理由來(lái)源,最終目標(biāo)是希望能夠融合抽取式和生成式兩種模式,現(xiàn)階段還是分離的,接下來(lái)簡(jiǎn)單介紹下單獨(dú)的詳情頁(yè)抽取模型。
7.1 Boostrap方式的模型訓(xùn)練詳情抽取模型本身可以抽象為文本分類問(wèn)題,文本分類問(wèn)題和模型相對(duì)都比較成熟了不過(guò)多展開,核心問(wèn)題在于label的設(shè)置方式重點(diǎn)介紹下。
我們采用的方式是是先用達(dá)人的推薦理由作為正樣本,利用規(guī)則篩選負(fù)樣本,用Deep模型訓(xùn)練一個(gè)基礎(chǔ)版本模型;然后再利用Deep模型的預(yù)測(cè)結(jié)果的高置信度的預(yù)測(cè)結(jié)果生成詳情頁(yè)本身的正負(fù)樣本,加入詳情頁(yè)特有的feature和Deep模型組合起來(lái)訓(xùn)練最終的Deep&Wide模型,具體訓(xùn)練過(guò)程見(jiàn)下圖:
Wide & Deep模型參考的就是google之前的DWL的paper了,見(jiàn)下圖,其中Deep部分用的是CNN提取深度f(wàn)eature,Wide主要特征有完成圖片維度(文本面積占比/不規(guī)范圖/小圖/上下文指示信息/圖片句子數(shù)量)和句子維度(字體大小/價(jià)格信息/黑名單詞/無(wú)中文/重復(fù))特征等。
目前在挑尖貨場(chǎng)景數(shù)據(jù)已經(jīng)全量,數(shù)據(jù)示例見(jiàn)下圖,詳情頁(yè)抽取的結(jié)果相對(duì)更加貼切和優(yōu)質(zhì)的。
7.2 目前的難點(diǎn)詳情頁(yè)本身是個(gè)含金量大的”金礦“,但”黃金密度“有限,噪音信號(hào)特別多,模型召回提升難度大。而且大部分詳情頁(yè)都是以圖片的形式存在的,依賴的OCR是單行粒度的,重新組合后會(huì)遇到各式各樣的奇葩斷句case,給Evaluator模型帶來(lái)很大挑戰(zhàn)。
除此之外,詳情抽取的短句和生成式模型D2S的融合目前還停留在提供item topics層面,我們還在繼續(xù)嘗試擴(kuò)展Copy機(jī)制更有機(jī)的融合抽取和生成,留白,值得期待。
八、業(yè)務(wù)場(chǎng)景應(yīng)用
目前我們的數(shù)據(jù)已經(jīng)逐漸在搜索和搜索外場(chǎng)景應(yīng)用,簡(jiǎn)單介紹下,歡迎合作。8.1 單品推薦理由8.1.1 手淘挑尖貨場(chǎng)景我們第一個(gè)全量的場(chǎng)景就是搜索的定位于高端用戶的”挑尖貨“場(chǎng)景,上線的是一句話導(dǎo)購(gòu)形式的推薦理由。8月份做了下AB-test測(cè)試核心指標(biāo)都有提升,已全量。
挑尖貨場(chǎng)景導(dǎo)購(gòu)短句效果圖
8.1.2 其余不再具體介紹
8.2 智能清單
8.2.1 手淘 - 搜索雙十一Tab和淘攻略
雙十一Tab是搜索結(jié)果頁(yè)的內(nèi)容固定坑位中,會(huì)根據(jù)相關(guān)性等因素展示D2S的清單或招商的達(dá)人清單。下面是雙十一Tab和淘攻略場(chǎng)景的產(chǎn)品PRD圖,雙十一期間開始生效,左邊是SRP入口樣式,右邊是清單詳情頁(yè)。
8.2.2 其余場(chǎng)景也不再具體介紹
九、感想和未來(lái)規(guī)劃
做下來(lái)這個(gè)項(xiàng)目,最大的感受是既驚喜又敬畏。驚喜的是原本圖像是深度學(xué)習(xí)應(yīng)用最為成功的領(lǐng)域,今天在NLP領(lǐng)域也可以完成過(guò)去想的到但做不了的事情,D2S模型寫出的文章竟然也能如此的生動(dòng)、富有渲染力,甚至很多產(chǎn)品、運(yùn)營(yíng)同學(xué)紛紛反饋很難辨別文章究竟是機(jī)器還是達(dá)人寫作的。而另一層面則是這個(gè)過(guò)程中對(duì)人腦的敬畏,人類可以在創(chuàng)作中進(jìn)行充分的演繹、聯(lián)想,從更加豐富的層面上進(jìn)行創(chuàng)作,表達(dá)自己的觀點(diǎn)和立場(chǎng),而今天的神經(jīng)網(wǎng)絡(luò)本質(zhì)上還只是一個(gè)不具備思維能力的模式識(shí)別機(jī)。
我們重新思考下機(jī)器和達(dá)人之間的關(guān)系,現(xiàn)在一定是共生存的關(guān)系,機(jī)器一定需要依賴達(dá)人去學(xué)習(xí),但是今天的機(jī)器寫作可以去定義達(dá)人的入門門檻。像我們阿士比亞公眾號(hào)的那句話所說(shuō):”在人工智能替代一切的將來(lái),唯有超越阿士比亞的內(nèi)容創(chuàng)造無(wú)可替代“。集團(tuán)內(nèi)其他team也有很多同學(xué)focus在NLP(NLG/NLU)領(lǐng)域或深度學(xué)習(xí)其他領(lǐng)域,希望我們能加強(qiáng)交流,一道把這個(gè)門檻提的更高。
最后感謝項(xiàng)目推進(jìn)過(guò)程中所有合作方和項(xiàng)目組同學(xué)的付出和努力,感謝各個(gè)團(tuán)隊(duì)各位老大們的支持!
十、主要參考文獻(xiàn)
如果對(duì)NLG領(lǐng)域感興趣希望精讀一些paper,可以看下我們精選的NLG、NMT和TextSummarization領(lǐng)域的以下這些paper。
Context-aware Natural Language Generation with Recurrent Neural Networks
Neural Text Generation from Structured Data with Application to the Biography Domain
Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems
Towards Constructing Sports News from Live Text Commentary
What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine
Chinese Poetry Generation with Planning based Neural Network 2016
Neural Machine Translation by Jointly Learning to Align and Translate 2015
Google’s Neural Machine Translation System- Bridging the Gap between Human and Machine Translation
Temporal Attention Model for Neural Machine Translation
Effective approaches to attention-based neural machine translation 2015
Abstractive sentence summarization with attentive recurrent neural networks 2016
A neural attention model for abstractive sentence summarization 2015
Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond
Get To The Point- Summarization with Pointer-Generator Networks
SummaRuNNer- A Recurrent Neural Network based Sequence Model for Extractive
A Deep Reinforced Model for Abstractive Summarization
-
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5511瀏覽量
121362 -
自然語(yǔ)言
+關(guān)注
關(guān)注
1文章
289瀏覽量
13374 -
知識(shí)圖譜
+關(guān)注
關(guān)注
2文章
132瀏覽量
7724
原文標(biāo)題:淘寶總知道你要什么?萬(wàn)字講述智能內(nèi)容生成實(shí)踐 | 技術(shù)頭條
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論