本文介紹一個(gè)中文自然語言處理語料庫項(xiàng)目:nlp_chinese_corpus ,初步貢獻(xiàn)了幾個(gè)已經(jīng)預(yù)處理好的中文語料,包括維基、新聞和百科語料,可直接下載使用。
眾所周知,中文NLP領(lǐng)域缺乏高質(zhì)量的中文語料。作者徐亮(實(shí)在智能算法專家) 創(chuàng)建了一個(gè)中文自然語言處理語料庫項(xiàng)目:nlp_chinese_corpus ,初步貢獻(xiàn)了幾個(gè)已經(jīng)預(yù)處理好的中文語料,包括維基、新聞和百科語料。
大規(guī)模中文自然語言處理語料 Large Scale Chinese Corpus for NLP
https://github.com/brightmart/nlp_chinese_corpus
為中文自然語言處理領(lǐng)域發(fā)展貢獻(xiàn)語料
貢獻(xiàn)中文語料,請聯(lián)系:nlp_chinese_corpus@163.com
語料庫將會(huì)不斷擴(kuò)充。。。
一期目標(biāo):10個(gè)百萬級中文語料 & 3個(gè)千萬級中文語料(2019年5月1號)
二期目標(biāo):30個(gè)百萬級中文語料 & 10個(gè)千萬級中文語料 & 1個(gè)億級中文語料(2019年12月31日)
為什么需要這個(gè)項(xiàng)目
中文的信息無處不在,但如果想要獲得大量的中文語料,卻是不太容易,有時(shí)甚至非常困難。在2019年初這個(gè)時(shí)點(diǎn)上,
普通的從業(yè)者、研究人員或?qū)W生,并沒有一個(gè)比較好的渠道獲得極大量的中文語料。筆者想要訓(xùn)練一個(gè)中文的詞向量,
在百度和github上上搜索了好久,收獲卻很少:要么語料的量級太小,要么數(shù)據(jù)過于成舊,或需要的處理太復(fù)雜。
不知道你是否也遇到了這樣的問題?
我們這個(gè)項(xiàng)目,就是為了解決這一問題貢獻(xiàn)微薄之力。
維基百科(wiki2019zh) ---- 新聞?wù)Z料(news2016zh) ---- 百科問答(baike2018qa)
1. 維基百科json版(wiki2019zh)
104萬個(gè)詞條(1,043,224條; 原始文件大小1.6G,壓縮文件519M;數(shù)據(jù)更新時(shí)間:2019.2.7)
點(diǎn)此下載:https://pan.baidu.com/s/1uPMlIY3vhusdnhAge318TA
可能的用途:
可以做為通用中文語料,做預(yù)訓(xùn)練的語料或構(gòu)建詞向量,也可以用于構(gòu)建知識問答。
結(jié)構(gòu):
{"id":
例子:
{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "經(jīng)濟(jì)學(xué)", "text": "經(jīng)濟(jì)學(xué) 經(jīng)濟(jì)學(xué)是一門對產(chǎn)品和服務(wù)的生產(chǎn)、分配以及消費(fèi)進(jìn)行研究的社會(huì)科學(xué)。西方語言中的“經(jīng)濟(jì)學(xué)”一詞源于古希臘的。 經(jīng)濟(jì)學(xué)注重的是研究經(jīng)濟(jì)行為者在一個(gè)經(jīng)濟(jì)體系下的行為,以及他們彼此之間的互動(dòng)。在現(xiàn)代,經(jīng)濟(jì)學(xué)的教材通常將這門領(lǐng)域的研究分為總體經(jīng)濟(jì)學(xué)和個(gè)體經(jīng)濟(jì)學(xué)。微觀經(jīng)濟(jì)學(xué)檢視一個(gè)社會(huì)里基本層次的行為,包括個(gè)體的行為者(例如個(gè)人、公司、買家或賣家)以及與市場的互動(dòng)。而宏觀經(jīng)濟(jì)學(xué)則分析整個(gè)經(jīng)濟(jì)體和其議題,包括失業(yè)、通貨膨脹、經(jīng)濟(jì)成長、財(cái)政和貨幣政策等。..."}
效果:
經(jīng)濟(jì)學(xué) 經(jīng)濟(jì)學(xué)是一門對產(chǎn)品和服務(wù)的生產(chǎn)、分配以及消費(fèi)進(jìn)行研究的社會(huì)科學(xué)。西方語言中的“經(jīng)濟(jì)學(xué)”一詞源于古希臘的。 經(jīng)濟(jì)學(xué)注重的是研究經(jīng)濟(jì)行為者在一個(gè)經(jīng)濟(jì)體系下的行為,以及他們彼此之間的互動(dòng)。在現(xiàn)代,經(jīng)濟(jì)學(xué)的教材通常將這門領(lǐng)域的研究分為總體經(jīng)濟(jì)學(xué)和個(gè)體經(jīng)濟(jì)學(xué)。微觀經(jīng)濟(jì)學(xué)檢視一個(gè)社會(huì)里基本層次的行為,包括個(gè)體的行為者(例如個(gè)人、公司、買家或賣家)以及與市場的互動(dòng)。而宏觀經(jīng)濟(jì)學(xué)則分析整個(gè)經(jīng)濟(jì)體和其議題,包括失業(yè)、通貨膨脹、經(jīng)濟(jì)成長、財(cái)政和貨幣政策等。 其他的對照還包括了實(shí)證經(jīng)濟(jì)學(xué)(研究「是什么」)以及規(guī)范經(jīng)濟(jì)學(xué)(研究「應(yīng)該是什么」)、經(jīng)濟(jì)理論與實(shí)用經(jīng)濟(jì)學(xué)、行為經(jīng)濟(jì)學(xué)與理性選擇經(jīng)濟(jì)學(xué)、主流經(jīng)濟(jì)學(xué)(研究理性-個(gè)體-均衡等)與非主流經(jīng)濟(jì)學(xué)(研究體制-歷史-社會(huì)結(jié)構(gòu)等)。 經(jīng)濟(jì)學(xué)的分析也被用在其他各種領(lǐng)域上,主要領(lǐng)域包括了商業(yè)、金融、和政府等,但同時(shí)也包括了如健康、犯罪、教育、法律、政治、社會(huì)架構(gòu)、宗教、戰(zhàn)爭、和科學(xué)等等。到了21世紀(jì)初,經(jīng)濟(jì)學(xué)在社會(huì)科學(xué)領(lǐng)域各方面不斷擴(kuò)張影響力,使得有些學(xué)者諷刺地稱其為「經(jīng)濟(jì)學(xué)帝國主義」。 在現(xiàn)代對于經(jīng)濟(jì)學(xué)的定義有數(shù)種說法,其中有許多說法因?yàn)榘l(fā)展自不同的領(lǐng)域或理論而有截然不同的定義,蘇格蘭哲學(xué)家和經(jīng)濟(jì)學(xué)家亞當(dāng)·斯密在1776年將政治經(jīng)濟(jì)學(xué)定義為「國民財(cái)富的性質(zhì)和原因的研究」,他說: 讓-巴蒂斯特·賽伊在1803年將經(jīng)濟(jì)學(xué)從公共政策里獨(dú)立出來,并定義其為對于財(cái)富之生產(chǎn)、分配、和消費(fèi)的學(xué)問。另一方面,托馬斯·卡萊爾則諷刺的稱經(jīng)濟(jì)學(xué)為「憂郁的科學(xué)」(Dismal science),不過這一詞最早是由馬爾薩斯在1798年提出。約翰·斯圖爾特·密爾在1844年提出了一個(gè)以社會(huì)科學(xué)定義經(jīng)濟(jì)學(xué)的角度: .....
2. 新聞?wù)Z料json版(news2016zh)
250萬篇新聞( 原始數(shù)據(jù)9G,壓縮文件3.6G;新聞內(nèi)容跨度:2014-2016年)
點(diǎn)此下載:https://pan.baidu.com/share/init?surl=LJeq1dkA0wmYd9ZGZw72Xg 密碼: film
數(shù)據(jù)描述
包含了250萬篇新聞。新聞來源涵蓋了6.3萬個(gè)媒體,含標(biāo)題、關(guān)鍵詞、描述、正文。
數(shù)據(jù)集劃分:數(shù)據(jù)去重并分成三個(gè)部分。訓(xùn)練集:243萬;驗(yàn)證集:7.7萬;測試集,數(shù)萬,不提供下載。
可能的用途:
可以做為【通用中文語料】,訓(xùn)練【詞向量】或做為【預(yù)訓(xùn)練】的語料; 也可以用于訓(xùn)練【標(biāo)題生成】模型,或訓(xùn)練【關(guān)鍵詞生成】模型(選關(guān)鍵詞內(nèi)容不同于標(biāo)題的數(shù)據(jù)); 亦可以通過新聞渠道區(qū)分出新聞的類型。
結(jié)構(gòu):
{'news_id':
例子:
{"news_id": "610130831", "keywords": "導(dǎo)游,門票","title": "故宮淡季門票40元 “黑導(dǎo)游”賣外地客140元", "desc": "近日有網(wǎng)友微博爆料稱,故宮午門廣場售票處出現(xiàn)“黑導(dǎo)游”,專門向外地游客出售高價(jià)門票。昨日,記者實(shí)地探訪故宮,發(fā)現(xiàn)“黑導(dǎo)游”確實(shí)存在。窗口出售", "source": "新華網(wǎng)", "time": "03-22 12:00", "content": "近日有網(wǎng)友微博爆料稱,故宮午門廣場售票處出現(xiàn)“黑導(dǎo)游”,專門向外地游客出售高價(jià)門票。昨日,記者實(shí)地探訪故宮,發(fā)現(xiàn)“黑導(dǎo)游”確實(shí)存在。窗口出售40元的門票,被“黑導(dǎo)游”加價(jià)出售,最高加到140元。故宮方面表示,請游客務(wù)必通過正規(guī)渠道購買門票,避免上當(dāng)受騙遭受損失。目前單筆門票購買流程不過幾秒鐘,耐心排隊(duì)購票也不會(huì)等待太長時(shí)間。....再反彈”的態(tài)勢,打擊黑導(dǎo)游需要游客配合,通過正規(guī)渠道購買門票。"}
3.百科類問答json版(baike2018qa)
150萬個(gè)問答( 原始數(shù)據(jù)1G多,壓縮文件663M;數(shù)據(jù)更新時(shí)間:2018年)
點(diǎn)此下載:https://pan.baidu.com/s/12TCEwC_Q3He65HtPKN17cA 密碼:fu45
數(shù)據(jù)描述
含有150萬個(gè)問題和答案,每個(gè)問題屬于一個(gè)類別??偣灿?92個(gè)類別,其中頻率達(dá)到或超過10次的類別有434個(gè)。
數(shù)據(jù)集劃分:數(shù)據(jù)去重并分成三個(gè)部分。訓(xùn)練集:142.5萬;驗(yàn)證集:4.5萬;測試集,數(shù)萬,不提供下載。
可能的用途:
可以做為通用中文語料,訓(xùn)練詞向量或做為預(yù)訓(xùn)練的語料;也可以用于構(gòu)建百科類問答;其中類別信息比較有用,可以用于做監(jiān)督訓(xùn)練,從而構(gòu)建 更好句子表示的模型、句子相似性任務(wù)等。
結(jié)構(gòu):
{"qid":
例子:
{"qid": "qid_2540946131115409959", "category": "生活知識", "title": "冬天進(jìn)補(bǔ)好一些呢,還是夏天進(jìn)步好啊? ", "desc": "", "answer": "你好! 當(dāng)然是冬天進(jìn)補(bǔ)好的了,夏天人體的胃處于收縮狀態(tài),不適宜大量的進(jìn)補(bǔ),所以我們有時(shí)候說:“夏天就要吃些清淡的,就是這個(gè)道理的?!? 不過,秋季進(jìn)補(bǔ)要注意“四忌” 一忌多多益善。任何補(bǔ)藥服用過量都有害。認(rèn)為“多吃補(bǔ)藥,有病治病,無病強(qiáng)身”是不的。過量進(jìn)補(bǔ)會(huì)加重脾胃、肝臟負(fù)擔(dān)。在夏季里,人們由于喝冷飲,常食凍品,多有脾胃功能減弱的現(xiàn)象,這時(shí)候如果突然大量進(jìn)補(bǔ),會(huì)驟然加重脾胃及肝臟的負(fù)擔(dān),使長期處于疲弱的消化器官難于承受,導(dǎo)致消化器官功能紊亂。 二忌以藥代食。重藥物輕食物的做法是不科學(xué)的,許多食物也是好的滋補(bǔ)品。如多吃薺菜可治療高血壓;多吃蘿卜可健胃消食,順氣寬胸;多吃山藥能補(bǔ)脾胃。日常食用的胡桃、芝麻、花生、紅棗、扁豆等也是進(jìn)補(bǔ)的佳品。 三忌越貴越好。每個(gè)人的身體狀況不同,因此與之相適應(yīng)的補(bǔ)品也是不同的。價(jià)格昂貴的補(bǔ)品如燕窩、人參之類并非對每個(gè)人都適合。每種進(jìn)補(bǔ)品都有一定的對象和適應(yīng)癥,應(yīng)以實(shí)用有效為滋補(bǔ)原則,缺啥補(bǔ)啥。 四忌只補(bǔ)肉類。秋季適當(dāng)食用牛羊肉進(jìn)補(bǔ)效果好。但經(jīng)過夏季后,由于脾胃尚未完全恢復(fù)到正常功能,因此過于油膩的食品不易消化吸收。另外,體內(nèi)過多的脂類、糖類等物質(zhì)堆積可能誘發(fā)心腦血管病。"}
公開評測:
歡迎報(bào)告模型在驗(yàn)證集上的準(zhǔn)確率。任務(wù)1: 類別預(yù)測。
報(bào)告包括:#1)驗(yàn)證集上準(zhǔn)確率;#2)采用的模型、方法描述、運(yùn)行方式,1頁P(yáng)DF;#3)可運(yùn)行的源代碼(可選)
基于#2和#3,我們會(huì)在測試集上做測試,并報(bào)告測試集上的準(zhǔn)確率;只提供了#1和#2的隊(duì)伍,驗(yàn)證集上的成績依然可以被顯示出來,但會(huì)被標(biāo)記為未驗(yàn)證。
貢獻(xiàn)語料/Contribution
貢獻(xiàn)中文語料,請發(fā)送郵件至nlp_chinese_corpus@163.com
為了共同建立一個(gè)大規(guī)模開放共享的中文語料庫,以促進(jìn)中文自然語言處理領(lǐng)域的發(fā)展,凡提供語料并被采納到該項(xiàng)目中,
除了會(huì)列出貢獻(xiàn)者名單(可選)外,我們會(huì)根據(jù)語料的質(zhì)量和量級,選出前20個(gè)同學(xué),結(jié)合您的意愿,寄出鍵盤、鼠標(biāo)、
顯示屏、無線耳機(jī)、智能音箱或其他等值的物品,以表示對貢獻(xiàn)者的感謝。
add your chinese corpus here by sending us an email
if there is any issue regarding the data, you can also contact with us, we will process it. thank you for your understanding.
Reference
利用Python構(gòu)建Wiki中文語料詞向量模型試驗(yàn)
A tool for extracting plain text from Wikipedia dumps
Open Chinese convert (OpenCC) in pure Python:開放中文轉(zhuǎn)換
dumps of wiki, latest in chinese
-
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13575 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22052
原文標(biāo)題:中文NLP福利!大規(guī)模中文自然語言處理語料
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論