0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析

馬哥Linux運(yùn)維 ? 來源:未知 ? 作者:李倩 ? 2018-09-14 14:55 ? 次閱讀

這篇文章是學(xué)習(xí)了老曹的微信直播,感覺WordCloud對(duì)我的《Python數(shù)據(jù)挖掘課程》非常有幫助,希望這篇基礎(chǔ)文章對(duì)你有所幫助,同時(shí)自己也是詞云的初學(xué)者,強(qiáng)烈推薦老曹的博客供大家學(xué)習(xí)。如果文章中存在不足或錯(cuò)誤的地方,還請(qǐng)海涵~

一. 安裝WordCloud

在使用WordCloud詞云之前,需要使用pip安裝相應(yīng)的包。

pip install WordCloud

pip install jieba

其中WordCloud是詞云,jieba是結(jié)巴分詞工具。 問題:在安裝WordCloud過程中,你可能遇到的第一個(gè)錯(cuò)誤如下。

error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27

解決方法也很簡(jiǎn)單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應(yīng)。 這是最大的問題,下面我自己提供一個(gè)CSDN的地址供大家下載。下載完成,可以進(jìn)行安裝響應(yīng)的庫函數(shù)。 資源地址:http://download.csdn.net/detail/eastmount/9788218

安裝完成之后,可以正常運(yùn)行代碼啦。

二. 簡(jiǎn)單詞云代碼

下面這部分代碼參考老曹的,希望對(duì)你有所幫助。 老曹說:什么是詞云呢?詞云又叫文字云,是對(duì)文本數(shù)據(jù)中出現(xiàn)頻率較高的“關(guān)鍵詞”在視覺上的突出呈現(xiàn),形成關(guān)鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領(lǐng)略文本數(shù)據(jù)的主要表達(dá)意思。 代碼如下:

運(yùn)行結(jié)果如下所示:

這是中文編碼問題,下面講解解決方法。

三. 中文編碼錯(cuò)誤及解決

在WordCloud安裝的目錄下找到WordCloud.py文件,對(duì)源碼進(jìn)行修改。

編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個(gè)msyh.ttf表示微軟雅黑中文字體。

注意,此時(shí)運(yùn)行代碼還是報(bào)錯(cuò),因?yàn)樾枰谕粋€(gè)目錄下放置msyh.ttf字體文件供程序調(diào)用,如下圖所示,這是原來的字體DroidSansMono.ttf。

此時(shí)的運(yùn)行結(jié)果如下所示,這是分析CSDN多篇博客的主題,"閱讀"和"評(píng)論"比較多。

也可以采用下面的代碼:

wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)

四. 照片背景的詞云代碼

下面進(jìn)一步深入,假設(shè)存在一個(gè)圖 "sss3.png",核心代碼如下:

運(yùn)行結(jié)果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。

一弦一柱思華年,一co一ding夢(mèng)嚴(yán)賢。 希望文章對(duì)你有所幫助,尤其是結(jié)合數(shù)據(jù)庫做數(shù)據(jù)分析的人。還是那句話,如果剛好需要這部分知識(shí),你就會(huì)覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯(cuò)誤的地方,還請(qǐng)海涵~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)挖掘
    +關(guān)注

    關(guān)注

    1

    文章

    406

    瀏覽量

    24237
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4797

    瀏覽量

    84682

原文標(biāo)題:Python數(shù)據(jù)挖掘:WordCloud詞云配置過程及詞頻分析

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    計(jì)算數(shù)據(jù)挖掘

    想要自學(xué)計(jì)算和數(shù)據(jù)挖掘想問下這些方面有哪些內(nèi)容該從何開始求大神們指教謝謝
    發(fā)表于 04-19 00:07

    python數(shù)據(jù)分析的類庫

    Python之所以這么流行,這么好用,就是因?yàn)?b class='flag-5'>Python提供了大量的第三方的庫,開箱即用,非常方便,而且還免費(fèi)哦,學(xué)Python的同學(xué)里估計(jì)有30%以上是為了做數(shù)據(jù)分析師或者
    發(fā)表于 05-10 15:18

    怎么有效學(xué)習(xí)Python數(shù)據(jù)分析?

    過程。對(duì)于新手,如何學(xué)好python,這些很關(guān)鍵:Part1:能掌握好Python關(guān)鍵代碼以及Pandas、Numpy、Matplotlib、Seaborn這四個(gè)基本工具包,便能獨(dú)立完成一些簡(jiǎn)單的
    發(fā)表于 06-28 15:18

    靈玖軟件:NLPIR智能挖掘系統(tǒng)專注中文處理

    和氣象學(xué)。大數(shù)據(jù)提出了數(shù)據(jù)庫和數(shù)據(jù)分析研究了隆重的挑戰(zhàn)。應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn),文本處理是不可或缺的一部分。大數(shù)據(jù)與人們以各種方式連接的媒介。尤其
    發(fā)表于 01-21 11:39

    xpath運(yùn)用基本方法和生成

    xpath解析頁面以及分析
    發(fā)表于 02-27 13:52

    Python生成的淘寶評(píng)論云圖

    Python——對(duì)淘寶評(píng)論詞頻統(tǒng)計(jì)并生成云圖
    發(fā)表于 11-04 06:12

    NLPIR大數(shù)據(jù)語義分析系統(tǒng)的使用手冊(cè)

    統(tǒng)計(jì)信息輸出文件 文件統(tǒng)計(jì)結(jié)果包括:文檔名、總詞頻、總詞數(shù)、用戶詞典總詞頻與用戶詞典 總詞數(shù)。批量分詞 對(duì)原始語料進(jìn)行分詞、自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄、新詞標(biāo)注以及 詞性標(biāo)注??稍?b class='flag-5'>分析
    發(fā)表于 11-14 17:04

    數(shù)據(jù)挖掘之基于關(guān)聯(lián)挖掘的商品銷售分析

    數(shù)據(jù)挖掘:基于關(guān)聯(lián)挖掘的商品銷售分析
    發(fā)表于 06-09 08:32

    LabVIEW生成酷炫的(wordcloud)效果

    通過LabVIEW調(diào)用Pythonwordcloud和matplotlib庫,實(shí)現(xiàn)如下圖所示的效果
    發(fā)表于 12-27 22:54

    基于關(guān)鍵相似度的用戶挖掘研究

    在Web挖掘極度盛行的今天,收集大量網(wǎng)絡(luò)數(shù)據(jù)已經(jīng)不是問題,而如何在海量數(shù)據(jù)中抽取去噪后的有用數(shù)據(jù)成為要解決的關(guān)鍵問題。本文研究將網(wǎng)站用戶的搜索關(guān)鍵
    發(fā)表于 12-13 10:15 ?0次下載

    基于詞頻統(tǒng)計(jì)的關(guān)鍵提取方法

    在TF-IDF算法基礎(chǔ)上,提出新的基于詞頻統(tǒng)計(jì)的關(guān)鍵提取方法。利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語給予不同的位置權(quán)重,對(duì)分詞結(jié)果中詞頻較高的同詞性詞語進(jìn)行詞語相似度計(jì)算,合并相似度較高的詞語
    發(fā)表于 12-15 15:29 ?13次下載
    基于<b class='flag-5'>詞頻</b>統(tǒng)計(jì)的關(guān)鍵<b class='flag-5'>詞</b>提取方法

    python統(tǒng)計(jì)詞頻的三種方法

    python統(tǒng)計(jì)詞頻的三種方法方法。
    發(fā)表于 05-25 14:33 ?2次下載

    python數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)

    用的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)工具。 一、數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是指從大量
    的頭像 發(fā)表于 08-17 16:29 ?1319次閱讀

    python數(shù)據(jù)挖掘案例

    Python數(shù)據(jù)挖掘的強(qiáng)大功能。 一、金融領(lǐng)域 1.股票價(jià)格預(yù)測(cè) 股票市場(chǎng)是一個(gè)復(fù)雜的系統(tǒng),而股票價(jià)格的預(yù)測(cè)對(duì)于投資者來說常常是至關(guān)重要的。Python
    的頭像 發(fā)表于 08-17 16:29 ?1673次閱讀

    Dynaconf 輕松實(shí)現(xiàn) Python 動(dòng)態(tài)配置管理

    ) **如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda: Python數(shù)據(jù)分析挖掘好幫手—Anaconda ,它內(nèi)置了
    的頭像 發(fā)表于 10-30 15:02 ?887次閱讀