久久亚洲国产成人亚,久久亚洲中文字幕精品一区四,伊人久久大香线蕉成人综合网

愛酒人士應(yīng)該都知道，選紅酒是個需要大量知識儲備的技術(shù)活——產(chǎn)地、年份、包裝、飲用場合，每個元素的變化都會對口感產(chǎn)生一定的影響。

TowardsDataScience上一位作者（同時也是輕度葡萄酒飲用者）用一組Kaggle的數(shù)據(jù)集撰寫了一個可以幫忙在網(wǎng)上選紅酒的AI小程序。

該數(shù)據(jù)中包含對葡萄酒的評論，葡萄酒評級（以分?jǐn)?shù)衡量），以及從WineEnthusiasts網(wǎng)站提取的其他相關(guān)信息。他通過訓(xùn)練一個機(jī)器學(xué)習(xí)模型，實現(xiàn)了根據(jù)基于文本分析預(yù)測葡萄酒質(zhì)量。

數(shù)據(jù)集按照日期被劃分為兩組數(shù)據(jù)文件。一組作為訓(xùn)練集，把一組作為測試集。

以下是整個訓(xùn)練過程，一起看看。

目標(biāo)：訓(xùn)練一個機(jī)器學(xué)習(xí)模型，實現(xiàn)基于文本分析的葡萄酒質(zhì)量預(yù)測

WineEnthusiast的用戶會對葡萄酒評分，1表示最差，100表示最好。不幸的是，傳到網(wǎng)站上的都是正面評論，所以數(shù)據(jù)集里分?jǐn)?shù)值只分布在80-100之間。

這意味著我們所用的這套數(shù)據(jù)并不能很好反應(yīng)我們在探索的問題。因此，基于這套數(shù)據(jù)所建立的模型只適用于評論較好的酒。在進(jìn)行分析之前，我們還是得先預(yù)習(xí)一些圈內(nèi)基本知識。通過從閱讀葡萄酒網(wǎng)站及一些相關(guān)資源，我找到一種自認(rèn)為不錯的分級方案，按照評分進(jìn)行分級。如下所示。

對于一個最終用戶（白話說就是買葡萄酒的），評分就是他們想要傳達(dá)的信息。如果我們按照上述劃分形式，我們就能既減少了葡萄酒信息維度又能保留住質(zhì)量相關(guān)信息。

重要決定：我把這個問題定義為一個傾向性分析問題，基于用戶評價判斷葡萄酒屬于Classic（典藏酒）、Superb（豪華酒）、Excellent（酒中上品）、Very Good（優(yōu)質(zhì)酒）、Good（好酒）及Acceptable（湊合吧）中的哪個等級。

實現(xiàn)：探索式分析

在這步中，我們會一點點深入理解數(shù)據(jù)。數(shù)據(jù)探索能夠給我們帶來更多解決問題的靈感。數(shù)據(jù)集中除了評論和評分，還有其他信息，如葡萄酒價格、品類（葡萄品種）及產(chǎn)地等。

數(shù)據(jù)預(yù)覽

我們可以把上述的其他信息也引入作為特征參數(shù)，這樣就能構(gòu)建出一個更全面的模型來預(yù)測葡萄酒質(zhì)量。為了將文字描述與其他特征結(jié)合起來進(jìn)行預(yù)測，我們可以創(chuàng)建一個集成學(xué)模型（文本分類器就是集成在內(nèi)的一部分）；也可以創(chuàng)建一個層級模型，在層級模型中，分類器的輸出會作為一個預(yù)測變量。

出于此目的，我們僅研究一下評論與葡萄酒評分之間的關(guān)系。

全面地查看數(shù)據(jù)完整性

評分和評論描述這兩列數(shù)據(jù)是完整的。前文提到過，葡萄酒的評分相對都比較高。所以，以我的經(jīng)驗看來，價格也會比較高。

data.describe()的輸出結(jié)果

data.info()的輸出結(jié)果

查看文本數(shù)據(jù)

評論的內(nèi)容看似來都很清晰。沒有出現(xiàn)任何語法和拼寫錯誤，而且評論的言語都比較簡潔。請看示例：

這款由純葡萄釀制的精品干紅來自奧克維爾酒莊，并在木桶中足足陳釀3年。當(dāng)如紅櫻桃汁般的果味遇上濃烈的焦糖味，再在精致柔和的單寧的作用下，并散發(fā)著微微薄荷香，真是令人垂涎。綜合從釀造開始至今的各項數(shù)據(jù)，它還值得再存放幾年使其越陳越香，推薦品嘗時間2022年-2030年。

還是得有一定的葡萄酒知識才能完全讀懂一些評論。上述示例中，“單寧”是一種能使得葡萄酒口感很干的一種成分。

下圖中我能看到這些常用術(shù)語的出現(xiàn)頻率。

最常出現(xiàn)的詞就是“Wine”，出現(xiàn)頻率超過了0.025%

分類前的準(zhǔn)備工作

所以，我們可以通過評分，將評論和我們所分的等級關(guān)聯(lián)起來。但不巧的是，我們的數(shù)據(jù)并不是很平衡。

沒有落在第4級內(nèi)的評論，大部分評論都落在第1-3級中。數(shù)據(jù)分布不均雖然是個問題，但還是可以通過細(xì)分類別或者設(shè)置類別權(quán)重來處理?？墒?，某個類別完全沒數(shù)據(jù)，這可得好好想想辦法了。

重要決定：我把第5級和第4級合成一級，這里評分在94-100中的評論就都在這個級別里了。

有必要清洗文本數(shù)據(jù)嗎？

我們可以考慮一下要不要對葡萄酒的評論信息進(jìn)行清洗或者標(biāo)準(zhǔn)化。做不做這事主要取決于我們所使用的學(xué)習(xí)算法。如果我們想把每條評論轉(zhuǎn)化成一個向量并作為一對一分類器的輸入，那就得花大量的時間進(jìn)行文本的標(biāo)準(zhǔn)化處理。另一種方式，如果以多向量的形式順序處理文本內(nèi)容，就用不著過多的標(biāo)準(zhǔn)化了。

順序處理文本（通常每個單詞都有對應(yīng)的向量，且對應(yīng)關(guān)系都很明確）有利于詞義消歧（一個單詞有多種含義）和識別同義詞。因為評論都是關(guān)于葡萄酒的，其中所提到的專業(yè)術(shù)語語境基本一致，所以我不太在意詞義消歧和識別同義詞的問題。但是由于評論的內(nèi)容都比較正面，我當(dāng)心一對一分類器很難區(qū)分出相鄰兩個類別之間的微妙差異。

重要決定：我要使用遞歸神經(jīng)網(wǎng)絡(luò)模型，把每條評論轉(zhuǎn)化為向量序列傳到模型中進(jìn)行預(yù)測。這樣我也就保留了文本的原始形式。

相較于使用TF-IDF等方式將文本轉(zhuǎn)為詞向量傳到一對一分類器中，我所選的就會一定更優(yōu)嗎？這并不好說。不過，這可以留到以后試試再作比較。

文本向量化

基于神經(jīng)網(wǎng)絡(luò)的單詞向量化通常可以使用word2vec、GloVe和fastText。對此，我們可以選擇使用自己定義的詞向量映射模型或是預(yù)先訓(xùn)練好的模型。由于我們要處理的文本沒有異常語意，所以我們直接使用訓(xùn)練好的詞向量模型來理解文字即可。

重要決定：使用預(yù)先訓(xùn)練好的詞向量模型。

但是該使用哪種詞向量映射模型？首先排除掉fastText方案，因為它是通過對單詞的n-gram等級求和來構(gòu)建詞向量的。而我們處理的文本中不太可能包含標(biāo)準(zhǔn)單詞表以外的詞匯（沒有拼寫錯誤、俚語、縮寫），所以fastText這種方案沒什么優(yōu)勢。

重要決定：使用訓(xùn)練好的GloVe詞向量。

我們可以下載一些已經(jīng)訓(xùn)練好的詞向量。我選用已經(jīng)標(biāo)記好的Common Crawl數(shù)據(jù)集，它包含大量詞匯且區(qū)分大小寫，名為300d的詞向量包含300個維度。

在加載預(yù)先訓(xùn)練好的嵌入之前，我們應(yīng)該定義一些固定的參數(shù)，另外還需下載一些必備的庫文件以及將類別進(jìn)行one-hot化編碼。

分割訓(xùn)練集和驗證集

即使我們已經(jīng)有了指定的測試集，我們也最好把訓(xùn)練數(shù)據(jù)分為訓(xùn)練集和驗證集，因為這有助于調(diào)參。

我將使用Keras庫中的text_to_sequences函數(shù)來保留文本中的單詞序列。同時，每個單詞會根據(jù)預(yù)先訓(xùn)練好的詞向量模型映射為詞向量。不足100(max_len)個單詞的序列會填充到100個，超過100(max_len)個單詞的序列只截取100個，這樣學(xué)習(xí)算法的輸入向量長度就一致了。

如果文本中出現(xiàn)了生僻的單詞（沒在訓(xùn)練好的詞向量模型中），它們會被設(shè)定為0向量。

注：如果有大量單詞不在模型的詞庫中，那我們得找個更智能的方式來初始化這些單詞。

訓(xùn)練分類器

由于文本的內(nèi)容通常比較短，我將選擇使用GRU網(wǎng)絡(luò)，而不用LSTM。這樣，文本內(nèi)容越短，我們對內(nèi)存的開銷就越少，而且GRU還能使學(xué)習(xí)算法效率更高。

我還會使用到早停法，這種方式可以通過驗證集的準(zhǔn)確率來判斷是否要繼續(xù)訓(xùn)練網(wǎng)絡(luò)。當(dāng)驗證集的準(zhǔn)確率在幾次訓(xùn)練后呈現(xiàn)為持續(xù)下降，早停法就會生效以停止訓(xùn)練。該方法還會將最有權(quán)重保存為“checkpoint”（就是本例中的model.h5），當(dāng)準(zhǔn)確度提升后還會更新權(quán)重。使用早停法，我們大可對網(wǎng)絡(luò)進(jìn)行多次訓(xùn)練，而不必?fù)?dān)心出現(xiàn)過擬合。

patience這個參數(shù)可以理解為一個閾值，用來判斷是否要提前結(jié)束訓(xùn)練。patience=3，意味著如果對全樣本進(jìn)行3次訓(xùn)練后仍沒有減少損失函數(shù)，則執(zhí)行早停。

遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單。其結(jié)構(gòu)里依次包含著有50個神經(jīng)元的雙向GRU層、池化層、全連接層、dropout層。雙向則意味著網(wǎng)絡(luò)能按照單詞出現(xiàn)的正序和逆序都進(jìn)行學(xué)習(xí)。

分類器還需優(yōu)化一下對準(zhǔn)確率這個指標(biāo)的定義。因為準(zhǔn)確率無法辨別出人類兩種誤判中的差別。對于人的判斷而言，把0級酒預(yù)測為4級酒可能比把0級酒預(yù)測為1級酒要糟糕得多。對神經(jīng)網(wǎng)絡(luò)的判斷而言，卻看不出差別。在未來的實踐中，可以設(shè)計一個指標(biāo)來反映兩者的關(guān)系。

是時候評估模型了——祭出我們的測試集

準(zhǔn)確率高達(dá)64%！

請看下圖中的混淆矩陣。從矩陣中，數(shù)值以百分比的形式反映出我們樣本數(shù)據(jù)中的數(shù)據(jù)不平衡。

必須記住的是，由于數(shù)據(jù)樣本中關(guān)于葡萄酒的評論都比較正面，所以這個分類器僅適用于評價較好的葡萄酒。如果未來能拿到一些不一樣數(shù)據(jù)來嘗試，結(jié)果想必也會很有意思。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關(guān)注

關(guān)注
1

文章
3243

瀏覽量
48836
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8418

瀏覽量
132628
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1208

瀏覽量
24700

原文標(biāo)題：如何在網(wǎng)上選到一瓶心儀的紅酒？通過文本分析預(yù)測葡萄酒的質(zhì)量

文章出處：【微信號：BigDataDigest，微信公眾號：大數(shù)據(jù)文摘】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

【大語言模型：原理與工程實踐】大語言模型的預(yù)訓(xùn)練

進(jìn)行損失計算，得到下一個目標(biāo)的預(yù)測。也會設(shè)計一些其他輔助訓(xùn)練任務(wù)，與主任務(wù)共同訓(xùn)練。選擇合適的預(yù)訓(xùn)練

發(fā)表于 05-07 17:10

50多種適合機(jī)器學(xué)習(xí)和預(yù)測應(yīng)用的API，你的選擇是？（2018年版本）

摘要：本文盤點了2018年以來人臉和圖像識別、文本分析、自然語言處理、情感分析、語言翻譯、 機(jī)器學(xué)習(xí)和預(yù)測這幾個領(lǐng)域常用的API，讀者可以

發(fā)表于 05-03 16:41

pyhanlp文本分類與情感分析

需要調(diào)節(jié)。訓(xùn)練本系統(tǒng)實現(xiàn)的訓(xùn)練算法是樸素貝葉斯法，無需用戶關(guān)心內(nèi)部細(xì)節(jié)。另有一個子項目實現(xiàn)

發(fā)表于 02-20 15:37

50個機(jī)器學(xué)習(xí)實用API干貨

還在為找不到機(jī)器學(xué)習(xí)的API而煩惱嗎？本篇文章將介紹一個包含50+關(guān)于人臉和圖像識別，文本分析，NLP，情感

發(fā)表于 10-06 08:00

NLPIR平臺在文本分類方面的技術(shù)解析

一下NLPIR大數(shù)據(jù)語義智能分析系統(tǒng)是怎樣實現(xiàn)文本分類的。NLPIR大數(shù)據(jù)語義智能分析平臺的文本分

發(fā)表于 11-18 17:46

自回歸滯后模型進(jìn)行多變量時間序列預(yù)測案例分享

1、如何建立一個模型來進(jìn)行多元時間序列預(yù)測呢？　　下圖顯示了關(guān)于不同類型葡萄酒銷量的月度多元時間

發(fā)表于 11-30 15:33

50個機(jī)器學(xué)習(xí)實用API

還在為找不到機(jī)器學(xué)習(xí)的API而煩惱嗎？本篇文章將介紹一個包含50+關(guān)于人臉和圖像識別，文本分析，NLP，情感

發(fā)表于 06-13 18:20 ?4296次閱讀

改進(jìn)粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的葡萄酒質(zhì)量識別

算法代替BP網(wǎng)絡(luò)自身訓(xùn)練過程，建立PSO優(yōu)化BP網(wǎng)絡(luò)模型，進(jìn)而對葡萄酒質(zhì)量進(jìn)行分類評定。經(jīng)過實證與文獻(xiàn)的對比，PSO優(yōu)化算法的確能夠有效的代替BP神經(jīng)網(wǎng)絡(luò)自身訓(xùn)練過程。

發(fā)表于 01-16 14:25 ?3次下載

基于深度神經(jīng)網(wǎng)絡(luò)的文本分類分析

　　隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，許多研究者嘗試?yán)蒙疃?b class='flag-5'>學(xué)習(xí)來解決文本分類問題，特別是在卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)方面，出現(xiàn)了許多新穎且有效的分類方法。對基于深度神經(jīng)網(wǎng)絡(luò)的

發(fā)表于 03-10 16:56 ?37次下載

融合文本分類和摘要的多任務(wù)學(xué)習(xí)摘要模型

文本摘要應(yīng)包含源文本中所有重要信息，傳統(tǒng)基于編碼器-解碼器架構(gòu)的摘要模型生成的摘要準(zhǔn)確性較低。根據(jù)文本分類和

發(fā)表于 04-27 16:18 ?11次下載

基于不同神經(jīng)網(wǎng)絡(luò)的文本分類方法研究對比

海量文本分析是實現(xiàn)大數(shù)據(jù)理解和價值發(fā)現(xiàn)的重要手段，其中文本分類作為自然語言處理的經(jīng)典問題受到研究者廣泛關(guān)注，而人工神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)異表現(xiàn)使其成為目前的主要研究方向。在此背景下

發(fā)表于 05-13 16:34 ?49次下載

基于LSTM的表示學(xué)習(xí)-文本分類模型

類的關(guān)鍵。為了獲得妤的文本表示，提高文本分類性能，構(gòu)建了基于LSTM的表示學(xué)習(xí)-文本分類模型，其中表示學(xué)

發(fā)表于 06-15 16:17 ?18次下載

NLP中的遷移學(xué)習(xí)：利用預(yù)訓(xùn)練模型進(jìn)行文本分類

遷移學(xué)習(xí)徹底改變了自然語言處理（NLP）領(lǐng)域，允許從業(yè)者利用預(yù)先訓(xùn)練的模型來完成自己的任務(wù)，從而大大減少了訓(xùn)練時間和計算資源。在本文中，我們將討論遷移

發(fā)表于 06-14 09:30 ?454次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實現(xiàn)圓檢測與圓心位置預(yù)測

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實現(xiàn)圓檢測與圓心位置預(yù)測，主要是通過

發(fā)表于 12-21 10:50 ?1982次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實現(xiàn)工件切割點位置預(yù)測

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實現(xiàn)工件切割點位置預(yù)測，主要是通過對

發(fā)表于 12-22 11:07 ?809次閱讀