現(xiàn)實(shí)中的大數(shù)據(jù)常常表示為一種非結(jié)構(gòu)化,交叉和動(dòng)態(tài)變化的文本數(shù)據(jù)。如何從大規(guī)模文本數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)是一個(gè)非常值得研究的任務(wù)。很多研究工作依賴于勞動(dòng)密集型的數(shù)據(jù)標(biāo)注,用有監(jiān)督的方法去抽取知識(shí)。但是,這些方法不具有普適性,難以擴(kuò)展,進(jìn)而難以處理具有動(dòng)態(tài)性或領(lǐng)域限定性的文本數(shù)據(jù)。我們認(rèn)為大規(guī)模的文本數(shù)據(jù)其自身蘊(yùn)含著大量的模式、結(jié)構(gòu)或知識(shí)。通過(guò)將無(wú)領(lǐng)域限制的大規(guī)模文本數(shù)據(jù)和具有領(lǐng)域限制的知識(shí)庫(kù)結(jié)合,我們可以充分發(fā)揮大規(guī)模文本數(shù)據(jù)的優(yōu)勢(shì)去處理非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的難題。
——韓家煒
2018中國(guó)人工智能大會(huì)(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時(shí)將在會(huì)上分享他關(guān)于大規(guī)模文本數(shù)據(jù)挖掘的最新研究,發(fā)表題為《基于海量文本數(shù)據(jù)的結(jié)構(gòu)化知識(shí)抽?。簲?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的融合技術(shù)》的主題演講,探討如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)提取。
適逢盛會(huì),心向往之。會(huì)前,我們整理了韓教授以往關(guān)于大數(shù)據(jù)挖掘的相關(guān)觀點(diǎn),方便大家一睹為快。
韓家煒現(xiàn)為美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授,ACM會(huì)士和IEEE會(huì)士,被稱為“數(shù)據(jù)挖掘第一人”。他在數(shù)據(jù)挖掘領(lǐng)域有重要的學(xué)術(shù)影響力,發(fā)表論文600余篇,出版多部專著。曾擔(dān)任國(guó)際知名會(huì)議KDD、SDM和ICDM程序委員會(huì)主席,創(chuàng)辦了學(xué)術(shù)期刊ACM TKDD并擔(dān)任主編。曾榮獲2004 ACM SIGKDD創(chuàng)新獎(jiǎng)、2005 IEEE計(jì)算機(jī)分會(huì)技術(shù)成就獎(jiǎng)、2009 IEEE計(jì)算機(jī)協(xié)會(huì)的M. Wallace McDowell獎(jiǎng)。他的專著Data Mining: Concepts and Techniques被公認(rèn)為數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材。
大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖
大數(shù)據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模十分巨大,以至于無(wú)法在合理時(shí)間內(nèi)通過(guò)人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺(jué)商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。
我們這個(gè)時(shí)代,由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)中絕大部分(超過(guò) 80%)都是以文本等無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的方式存儲(chǔ)。所以,挖掘大數(shù)據(jù)首先就是要系統(tǒng)地研究如何挖掘無(wú)結(jié)構(gòu)的文本數(shù)據(jù),也就是說(shuō),要實(shí)現(xiàn)從Big Data 到Actionable Knowledge的轉(zhuǎn)變。
韓家煒認(rèn)為,要將無(wú)結(jié)構(gòu)的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(luò)(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結(jié)構(gòu)化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強(qiáng)大的,但是如何將原始無(wú)結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。
在 Network/Text Cube 到 Knowledge 的問(wèn)題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng);在無(wú)結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在不斷求索中。
數(shù)據(jù)挖掘三部曲
韓家煒認(rèn)為,數(shù)據(jù)挖掘的研究工作可以總結(jié)為三部曲:
(1)從文本數(shù)據(jù)中挖掘隱藏的結(jié)構(gòu)。文本數(shù)據(jù)中隱藏著大量的結(jié)構(gòu),這步工作就是將這些數(shù)據(jù)挖掘出來(lái)
(2)將文本數(shù)據(jù)轉(zhuǎn)化為有類型的 Network/Text Cube。將文本數(shù)據(jù)變成有結(jié)構(gòu)、有類型的數(shù)據(jù)(Network/Text Cube)
(3)挖掘 Network/Text Cube 生成有用的知識(shí)。最后一步才是挖掘。
此外,在研究的推進(jìn)過(guò)程中,他們也曾遇到了很多困難。
一是領(lǐng)域限制。用一般語(yǔ)料獲得的實(shí)體標(biāo)注在特定領(lǐng)域、動(dòng)態(tài)領(lǐng)域或者新興的領(lǐng)域無(wú)法很好的工作。
二是名稱的歧義性。多個(gè)實(shí)體可能共享同一個(gè)表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊(duì)名等)。
三是上下文稀疏。對(duì)同一個(gè)關(guān)系可能有許多種表示方法(想想中文有多少中表示體育比賽結(jié)果的方法)。
雖然數(shù)據(jù)挖掘已經(jīng)有了成型的結(jié)構(gòu),但仍有重重困難需要克服。韓教授曾說(shuō):“在這條路上,我們現(xiàn)在只是找到了幾個(gè)口子可以往前走?,F(xiàn)在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來(lái)我們就可以從大量的無(wú)結(jié)構(gòu)的文本,變成大量的有用的知識(shí)?!?/p>
在即將到來(lái)的盛夏,韓家煒教授作為中國(guó)人工智能大會(huì)的特邀嘉賓,將會(huì)介紹他最近的研究:如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)抽?。恐饕P(guān)鍵短語(yǔ)抽取,基于遠(yuǎn)監(jiān)督的實(shí)體識(shí)別和關(guān)系分類,基于模式的信息提取方法,多元分類的自動(dòng)發(fā)現(xiàn)以及多維文本數(shù)據(jù)集的構(gòu)建等方法。在CCAI2018的報(bào)告中,韓家煒教授將證明數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理三個(gè)技術(shù)進(jìn)行融合是一個(gè)“非常重要且極有前途”的方向。
在CCAI2018,跟隨開(kāi)路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!
-
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238956 -
數(shù)據(jù)挖掘
+關(guān)注
關(guān)注
1文章
406瀏覽量
24264 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8897瀏覽量
137523
原文標(biāo)題:CCAI2018 | 韓家煒:大規(guī)模文本數(shù)據(jù)挖掘的新方向
文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論