0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

北大開源了一個中文分詞工具包,名為——PKUSeg

電子工程師 ? 來源:lq ? 2019-01-16 10:29 ? 次閱讀

分詞技術(shù)是一種比較基礎(chǔ)的模塊,就英文而言,詞與詞之間通常由空格分開,因此英文分詞則要簡單的多,但中文和英文的詞是有區(qū)別的,再加上中國文化的博大精深,分詞的時候要考慮的情況比英文分詞要復(fù)雜的多,如果處理不好就會直接影響到后續(xù)詞性標(biāo)注、句法分析等的準確性,

目前,我們最常用的分詞工具大概有四種哈工大LTP、中科院計算所NLPIR、清華大學(xué)THULAC和jieba。

不過最近,北大開源了一個中文分詞工具包,名為 ——PKUSeg,基于Python。據(jù)介紹其準確率秒殺THULAC和結(jié)巴分詞等工具。

一經(jīng)開源,pkuseg已經(jīng)在GitHub上獲得1738個Star,244個Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下幾個特點:

多領(lǐng)域分詞:不同于以往的通用中文分詞工具,此工具包同時致力于為不同領(lǐng)域的數(shù)據(jù)提供個性化的預(yù)訓(xùn)練模型。根據(jù)待分詞文本的領(lǐng)域特點,用戶可以自由地選擇不同的模型。 我們目前支持了新聞領(lǐng)域,網(wǎng)絡(luò)文本領(lǐng)域和混合領(lǐng)域的分詞預(yù)訓(xùn)練模型,同時也擬在近期推出更多的細領(lǐng)域預(yù)訓(xùn)練模型,比如醫(yī)藥、旅游、專利、小說等等。

更高的分詞準確率:相比于其他的分詞工具包,當(dāng)使用相同的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),pkuseg可以取得更高的分詞準確率。

支持用戶自訓(xùn)練模型:支持用戶使用全新的標(biāo)注數(shù)據(jù)進行訓(xùn)練。

各類分詞工具包的性能對比

前面有提到說pkuseg的準確率遠超其他分詞工具包,現(xiàn)在就是用數(shù)據(jù)說話的時候了,下面就是在 Linux 環(huán)境下,各工具在新聞數(shù)據(jù) (MSRA) 和混合型文本 (CTB8) 數(shù)據(jù)上的準確率測試情況

測試使用的是第二屆國際漢語分詞評測比賽提供的分詞評價腳本,從上圖看出結(jié)巴分詞準確率最低,

跨領(lǐng)域測試結(jié)果

以下是在其它領(lǐng)域進行測試,以模擬模型在“黑盒數(shù)據(jù)”上的分詞效果。

默認模型在不同領(lǐng)域的測試效果

以下是各個工具包的默認模型在不同領(lǐng)域的測試效果

使用方式

代碼示例1:使用默認模型及默認詞典分詞

importpkusegseg=pkuseg.pkuseg()#以默認配置加載模型text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例2:設(shè)置用戶自定義詞典

importpkuseglexicon=['北京大學(xué)','北京***']#希望分詞時用戶詞典中的詞固定不分開seg=pkuseg.pkuseg(user_dict=lexicon)#加載模型,給定用戶詞典text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假設(shè)用戶已經(jīng)下載好了ctb8的模型#并放在了'./ctb8'目錄下,通過設(shè)置model_name加載該模型text=seg.cut('我愛北京***')#進行分詞print(text)

代碼示例4:對文件分詞

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#對input.txt的文件分詞輸出到output.txt中,#使用默認模型和詞典,開20個進程

代碼示例5:訓(xùn)練新模型

importpkuseg#訓(xùn)練文件為'msr_training.utf8'#測試文件為'msr_test_gold.utf8'#模型存到'./models'目錄下,開20個進程訓(xùn)練模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三種在不同類型數(shù)據(jù)上訓(xùn)練得到的模型,根據(jù)具體需要,用戶可以選擇不同的預(yù)訓(xùn)練模型:

MSRA:在MSRA(新聞?wù)Z料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新聞文本及網(wǎng)絡(luò)文本的混合型語料)上訓(xùn)練的模型。隨pip包附帶的是此模型。

下載地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(網(wǎng)絡(luò)文本語料)上訓(xùn)練的模型。

下載地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分詞工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Linux
    +關(guān)注

    關(guān)注

    87

    文章

    11312

    瀏覽量

    209714
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3363

    瀏覽量

    42537
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4797

    瀏覽量

    84758

原文標(biāo)題:準確率秒殺結(jié)巴分詞,北大開源全新中文分詞工具包PKUSeg

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    TSP工具包軟件的應(yīng)用說明

    需要快速開發(fā)測試的行業(yè)中,有效的自動化和便捷代碼的開發(fā)需求比以往任何時候都顯得更加突出。企業(yè)在努力提高產(chǎn)品質(zhì)量的同時,更需要尋求更短的上市時間,合適的工具正是實現(xiàn)這目標(biāo)的關(guān)鍵
    的頭像 發(fā)表于 01-03 15:53 ?234次閱讀
    TSP<b class='flag-5'>工具包</b>軟件的應(yīng)用說明

    最新Simplicity SDK軟件開發(fā)工具包發(fā)布

    最新的SimplicitySDK軟件開發(fā)工具包已經(jīng)發(fā)布!此次更新針對SiliconLabs(芯科科技)第二代無線開發(fā)平臺帶來了包括藍牙6.0的信道探測(Channel Sounding
    的頭像 發(fā)表于 12-24 09:47 ?170次閱讀

    基于EasyGo Vs工具包和Nl veristand軟件進行的永磁同步電機實時仿真

    EasyGo Vs Addon是款領(lǐng)先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領(lǐng)域帶來了前所未有的便利和效率,特別適用于汽車
    的頭像 發(fā)表于 11-27 11:28 ?266次閱讀
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand軟件進行的永磁同步電機實時仿真

    FPGA仿真工具包軟件EasyGo Vs Addon介紹

    EasyGo Vs Addon是款領(lǐng)先的FPGA仿真工具包軟件,它強大地連接了VeriStand軟件與Matlab/Simulink,為實時測試和驗證領(lǐng)域帶來了前所未有的便利和效率,特別適用于汽車、航空航天和能源電力等實時測試和驗證至關(guān)重要的行業(yè)。
    的頭像 發(fā)表于 10-24 15:55 ?405次閱讀
    FPGA仿真<b class='flag-5'>工具包</b>軟件EasyGo Vs Addon介紹

    采用德州儀器 (TI) 工具包進行模擬前端設(shè)計應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《采用德州儀器 (TI) 工具包進行模擬前端設(shè)計應(yīng)用說明.pdf》資料免費下載
    發(fā)表于 09-09 11:21 ?0次下載
    采用德州儀器 (TI) <b class='flag-5'>工具包</b>進行模擬前端設(shè)計應(yīng)用說明

    蘋果推出全新開源Swift軟件

    七月三十一日,蘋果企業(yè)總部對外正式發(fā)表公告,宣布昨日(即七月二十九日)成功推出全新的開源 Swift 軟件—— (喚名為 swift-homomorphic-encryption)。此舉旨在為 Swift 編程語言帶來應(yīng)用便利
    的頭像 發(fā)表于 07-31 15:17 ?395次閱讀

    使用freeRTOS開發(fā)工具包時,在哪里可以找到freeRTOS的版本?

    作為主題,當(dāng)我使用 freeRTOS 開發(fā)工具包時,在哪里可以找到 freeRTOS 的版本?
    發(fā)表于 07-09 07:17

    新加坡推出Project Moonshot -- 這是款生成式人工智能測試工具包,用于應(yīng)對LLM安全和安保挑戰(zhàn)

    新加坡2024年6月3日?/美通社/ -- 新加坡通訊及新聞部部長Josephine Teo 女士推出了AI Verify- Project Moonshot,這是易于使用的測試工具包,旨在
    的頭像 發(fā)表于 06-03 19:59 ?239次閱讀
    新加坡推出Project Moonshot -- 這是<b class='flag-5'>一</b>款生成式人工智能測試<b class='flag-5'>工具包</b>,用于應(yīng)對LLM安全和安保挑戰(zhàn)

    Hugging Face推出開源機器人代碼庫LeRobot

    AI領(lǐng)域的佼佼者Hugging Face近日宣布重磅推出并全面開源其機器人工具包——LeRobot。這創(chuàng)新工具包基于史上最大規(guī)模的眾包機器人數(shù)據(jù)集,為開發(fā)者提供
    的頭像 發(fā)表于 05-09 10:32 ?591次閱讀

    QE for Motor V1.3.0:汽車開發(fā)輔助工具解決方案工具包

    電子發(fā)燒友網(wǎng)站提供《QE for Motor V1.3.0:汽車開發(fā)輔助工具解決方案工具包.pdf》資料免費下載
    發(fā)表于 02-19 10:44 ?0次下載
    QE for Motor V1.3.0:汽車開發(fā)輔助<b class='flag-5'>工具</b>解決方案<b class='flag-5'>工具包</b>

    求助,請問有沒有l(wèi)abview opc ua工具包 2018 啊

    如題,求助,請問有沒有l(wèi)abview opc ua工具包 2018 啊。只要2018的哦
    發(fā)表于 01-25 20:14

    labview工具包下載

    求助labview2020控制仿真工具包,官網(wǎng)下載不了,這個說能免注冊下載網(wǎng)址我打開也是空白,求助好心人幫幫忙分享 https://download.ni.com/#evalua
    發(fā)表于 01-16 15:07

    利用ProfiShark 構(gòu)建便攜式網(wǎng)絡(luò)取證工具包

    網(wǎng)絡(luò)安全領(lǐng)域日益重視便攜式取證工具的靈活應(yīng)用。本文介紹了如何構(gòu)建以ProfiShark1G為核心的便攜式網(wǎng)絡(luò)取證工具包,以提高網(wǎng)絡(luò)取證的效率和實效性
    的頭像 發(fā)表于 01-13 08:04 ?1607次閱讀
    利用ProfiShark 構(gòu)建便攜式網(wǎng)絡(luò)取證<b class='flag-5'>工具包</b>

    Torch TensorRT是優(yōu)化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我們大家聚在起的原因,它是端到端的機器學(xué)習(xí)框架。而TensorRT則是NVIDIA的高性能深度學(xué)習(xí)推理軟件工具包。Torc
    的頭像 發(fā)表于 01-09 16:41 ?1761次閱讀
    Torch TensorRT是<b class='flag-5'>一</b><b class='flag-5'>個</b>優(yōu)化PyTorch模型推理性能的<b class='flag-5'>工具</b>

    全志V853 NPU開發(fā)之工具安裝

    python3 python3-dev python3-pip build-essential 準備 NPU 部署工具包需要準備兩工具包: Verisilicon_Tool_Acuity_Toolkit
    發(fā)表于 01-08 09:50