0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

MqC7_CAAI_1981 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-06-11 09:39 ? 次閱讀

現(xiàn)實(shí)中的大數(shù)據(jù)常常表示為一種非結(jié)構(gòu)化,交叉和動(dòng)態(tài)變化的文本數(shù)據(jù)。如何從大規(guī)模文本數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)是一個(gè)非常值得研究的任務(wù)。很多研究工作依賴于勞動(dòng)密集型的數(shù)據(jù)標(biāo)注,用有監(jiān)督的方法去抽取知識(shí)。但是,這些方法不具有普適性,難以擴(kuò)展,進(jìn)而難以處理具有動(dòng)態(tài)性或領(lǐng)域限定性的文本數(shù)據(jù)。我們認(rèn)為大規(guī)模的文本數(shù)據(jù)其自身蘊(yùn)含著大量的模式、結(jié)構(gòu)或知識(shí)。通過(guò)將無(wú)領(lǐng)域限制的大規(guī)模文本數(shù)據(jù)和具有領(lǐng)域限制的知識(shí)庫(kù)結(jié)合,我們可以充分發(fā)揮大規(guī)模文本數(shù)據(jù)的優(yōu)勢(shì)去處理非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的難題。

——韓家煒

2018中國(guó)人工智能大會(huì)(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時(shí)將在會(huì)上分享他關(guān)于大規(guī)模文本數(shù)據(jù)挖掘的最新研究,發(fā)表題為《基于海量文本數(shù)據(jù)的結(jié)構(gòu)化知識(shí)抽?。簲?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的融合技術(shù)》的主題演講,探討如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)提取。

適逢盛會(huì),心向往之。會(huì)前,我們整理了韓教授以往關(guān)于大數(shù)據(jù)挖掘的相關(guān)觀點(diǎn),方便大家一睹為快。

韓家煒現(xiàn)為美國(guó)伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授,ACM會(huì)士和IEEE會(huì)士,被稱為“數(shù)據(jù)挖掘第一人”。他在數(shù)據(jù)挖掘領(lǐng)域有重要的學(xué)術(shù)影響力,發(fā)表論文600余篇,出版多部專著。曾擔(dān)任國(guó)際知名會(huì)議KDD、SDM和ICDM程序委員會(huì)主席,創(chuàng)辦了學(xué)術(shù)期刊ACM TKDD并擔(dān)任主編。曾榮獲2004 ACM SIGKDD創(chuàng)新獎(jiǎng)、2005 IEEE計(jì)算機(jī)分會(huì)技術(shù)成就獎(jiǎng)、2009 IEEE計(jì)算機(jī)協(xié)會(huì)的M. Wallace McDowell獎(jiǎng)。他的專著Data Mining: Concepts and Techniques被公認(rèn)為數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材。

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

大數(shù)據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模十分巨大,以至于無(wú)法在合理時(shí)間內(nèi)通過(guò)人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來(lái)察覺(jué)商業(yè)趨勢(shì)、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測(cè)定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。

我們這個(gè)時(shí)代,由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)中絕大部分(超過(guò) 80%)都是以文本等無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的方式存儲(chǔ)。所以,挖掘大數(shù)據(jù)首先就是要系統(tǒng)地研究如何挖掘無(wú)結(jié)構(gòu)的文本數(shù)據(jù),也就是說(shuō),要實(shí)現(xiàn)從Big Data 到Actionable Knowledge的轉(zhuǎn)變。

韓家煒認(rèn)為,要將無(wú)結(jié)構(gòu)的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(luò)(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結(jié)構(gòu)化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強(qiáng)大的,但是如何將原始無(wú)結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問(wèn)題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng);在無(wú)結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在不斷求索中。

數(shù)據(jù)挖掘三部曲

韓家煒認(rèn)為,數(shù)據(jù)挖掘的研究工作可以總結(jié)為三部曲:

(1)從文本數(shù)據(jù)中挖掘隱藏的結(jié)構(gòu)。文本數(shù)據(jù)中隱藏著大量的結(jié)構(gòu),這步工作就是將這些數(shù)據(jù)挖掘出來(lái)

(2)將文本數(shù)據(jù)轉(zhuǎn)化為有類型的 Network/Text Cube。將文本數(shù)據(jù)變成有結(jié)構(gòu)、有類型的數(shù)據(jù)(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識(shí)。最后一步才是挖掘。

此外,在研究的推進(jìn)過(guò)程中,他們也曾遇到了很多困難。

一是領(lǐng)域限制。用一般語(yǔ)料獲得的實(shí)體標(biāo)注在特定領(lǐng)域、動(dòng)態(tài)領(lǐng)域或者新興的領(lǐng)域無(wú)法很好的工作。

二是名稱的歧義性。多個(gè)實(shí)體可能共享同一個(gè)表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊(duì)名等)。

三是上下文稀疏。對(duì)同一個(gè)關(guān)系可能有許多種表示方法(想想中文有多少中表示體育比賽結(jié)果的方法)。

雖然數(shù)據(jù)挖掘已經(jīng)有了成型的結(jié)構(gòu),但仍有重重困難需要克服。韓教授曾說(shuō):“在這條路上,我們現(xiàn)在只是找到了幾個(gè)口子可以往前走?,F(xiàn)在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來(lái)我們就可以從大量的無(wú)結(jié)構(gòu)的文本,變成大量的有用的知識(shí)?!?/p>

在即將到來(lái)的盛夏,韓家煒教授作為中國(guó)人工智能大會(huì)的特邀嘉賓,將會(huì)介紹他最近的研究:如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識(shí)抽?。恐饕P(guān)鍵短語(yǔ)抽取,基于遠(yuǎn)監(jiān)督的實(shí)體識(shí)別和關(guān)系分類,基于模式的信息提取方法,多元分類的自動(dòng)發(fā)現(xiàn)以及多維文本數(shù)據(jù)集的構(gòu)建等方法。在CCAI2018的報(bào)告中,韓家煒教授將證明數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語(yǔ)言處理三個(gè)技術(shù)進(jìn)行融合是一個(gè)“非常重要且極有前途”的方向。

在CCAI2018,跟隨開(kāi)路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47425

    瀏覽量

    238956
  • 數(shù)據(jù)挖掘
    +關(guān)注

    關(guān)注

    1

    文章

    406

    瀏覽量

    24264
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8897

    瀏覽量

    137523

原文標(biāo)題:CCAI2018 | 韓家煒:大規(guī)模文本數(shù)據(jù)挖掘的新方向

文章出處:【微信號(hào):CAAI-1981,微信公眾號(hào):中國(guó)人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    bds 系統(tǒng)的優(yōu)缺點(diǎn) bds與傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別

    BDS(Big Data System)系統(tǒng),通常指的是用于處理大數(shù)據(jù)的系統(tǒng),它們能夠處理大規(guī)模數(shù)據(jù)集,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化
    的頭像 發(fā)表于 11-22 15:48 ?489次閱讀

    視覺(jué)軟件HALCON的數(shù)據(jù)結(jié)構(gòu)

    在研究機(jī)器視覺(jué)算法之前,我們需要先了解機(jī)器視覺(jué)應(yīng)用中涉及的基本數(shù)據(jù)結(jié)構(gòu)。Halcon數(shù)據(jù)結(jié)構(gòu)主要有圖像參數(shù)和控制參數(shù)兩類參數(shù)。圖像參數(shù)包括:image、region、XLD,控制參數(shù)包括:string、integer、real、handle、tuple數(shù)組等。
    的頭像 發(fā)表于 11-14 10:20 ?458次閱讀
    視覺(jué)軟件HALCON的<b class='flag-5'>數(shù)據(jù)結(jié)構(gòu)</b>

    emc技術(shù)在大數(shù)據(jù)分析中的角色

    大數(shù)據(jù)分析通常涉及來(lái)自多個(gè)來(lái)源和格式的數(shù)據(jù)。這些數(shù)據(jù)可能包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫(kù)中的表格
    的頭像 發(fā)表于 11-01 15:22 ?298次閱讀

    架構(gòu)師日記-從數(shù)據(jù)庫(kù)發(fā)展歷程到數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)探析

    的提出,以表格形式組織數(shù)據(jù),數(shù)據(jù)之間存在關(guān)聯(lián)關(guān)系,具有了良好的結(jié)構(gòu)化和規(guī)范特性,成為主流數(shù)據(jù)庫(kù)類型。 先來(lái)看一張
    的頭像 發(fā)表于 09-25 11:20 ?818次閱讀
    架構(gòu)師日記-從<b class='flag-5'>數(shù)據(jù)</b>庫(kù)發(fā)展歷程到<b class='flag-5'>數(shù)據(jù)結(jié)構(gòu)</b>設(shè)計(jì)探析

    嵌入式常用數(shù)據(jù)結(jié)構(gòu)有哪些

    在嵌入式編程中,數(shù)據(jù)結(jié)構(gòu)的選擇和使用對(duì)于程序的性能、內(nèi)存管理以及開(kāi)發(fā)效率都具有重要影響。嵌入式系統(tǒng)由于資源受限(如處理器速度、內(nèi)存大小等),因此對(duì)數(shù)據(jù)結(jié)構(gòu)的選擇和使用尤為關(guān)鍵。以下是嵌入式編程中常用的幾種數(shù)據(jù)結(jié)構(gòu),結(jié)合具體特點(diǎn)和
    的頭像 發(fā)表于 09-02 15:25 ?521次閱讀

    基于分布式對(duì)象存儲(chǔ)WDS的信托非結(jié)構(gòu)化數(shù)據(jù)整合平臺(tái)

    基于分布式對(duì)象存儲(chǔ)WDS的信托非結(jié)構(gòu)化數(shù)據(jù)整合平臺(tái)
    的頭像 發(fā)表于 08-28 09:56 ?362次閱讀
    基于分布式對(duì)象存儲(chǔ)WDS的信托非<b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>數(shù)據(jù)</b>整合平臺(tái)

    大數(shù)據(jù)分析平臺(tái)網(wǎng)站

    結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。 提供數(shù)據(jù)清洗、轉(zhuǎn)換和加載(ETL)功能,確保數(shù)據(jù)質(zhì)量。 2.
    的頭像 發(fā)表于 06-28 15:46 ?693次閱讀

    定期維護(hù)結(jié)構(gòu)化布線對(duì)于辦公室得重要性

    定期維護(hù)結(jié)構(gòu)化布線對(duì)于辦公室的順利運(yùn)行至關(guān)重要。結(jié)構(gòu)化布線是指支持建筑物內(nèi)各種數(shù)據(jù)、語(yǔ)音和視頻系統(tǒng)的標(biāo)準(zhǔn)基礎(chǔ)設(shè)施。它包括電纜、連接器、機(jī)架和其他構(gòu)成網(wǎng)絡(luò)主干的組件。 通過(guò)正確維護(hù)
    的頭像 發(fā)表于 06-14 10:44 ?252次閱讀

    探索編程世界的七大數(shù)據(jù)結(jié)構(gòu)

    樹(shù)結(jié)構(gòu)就像是一顆倒掛的小樹(shù),有根、有枝、有葉。它是一種非線性的數(shù)據(jù)結(jié)構(gòu),以層級(jí)的方式存儲(chǔ)數(shù)據(jù),頂部是根節(jié)點(diǎn),底部是葉節(jié)點(diǎn)。
    的頭像 發(fā)表于 04-16 12:04 ?402次閱讀

    什么是結(jié)構(gòu)化網(wǎng)絡(luò)布線?結(jié)構(gòu)化網(wǎng)絡(luò)布線有哪些好處?

    在電纜領(lǐng)域,結(jié)構(gòu)化網(wǎng)絡(luò)布線這個(gè)術(shù)語(yǔ)經(jīng)常被提及。人們將其用作流行語(yǔ),但它的真正含義是什么?結(jié)構(gòu)化布線到底是什么? 為了了解真正的含義,讓我們看它的一些相關(guān)定義。 根據(jù)光纖協(xié)會(huì)的說(shuō)法,結(jié)構(gòu)化布線是由
    的頭像 發(fā)表于 04-11 11:54 ?541次閱讀

    結(jié)構(gòu)化布線的好處多嗎

    結(jié)構(gòu)化布線是網(wǎng)絡(luò)系統(tǒng)中的重要組成部分,因?yàn)樗鼮?b class='flag-5'>數(shù)據(jù)傳輸提供了強(qiáng)大、可擴(kuò)展且可靠的基礎(chǔ)。通過(guò)遵守全球公認(rèn)的標(biāo)準(zhǔn),結(jié)構(gòu)化布線可促進(jìn)高速連接、簡(jiǎn)化故障排除并確保未來(lái)的可擴(kuò)展性。考慮到這些優(yōu)勢(shì),企業(yè)應(yīng)優(yōu)先
    的頭像 發(fā)表于 04-07 11:15 ?457次閱讀

    什么是網(wǎng)絡(luò)系統(tǒng)中的結(jié)構(gòu)化布線?

    結(jié)構(gòu)化布線在網(wǎng)絡(luò)系統(tǒng)中發(fā)揮著至關(guān)重要的作用,為組織內(nèi)的無(wú)縫通信和數(shù)據(jù)傳輸提供了堅(jiān)實(shí)的基礎(chǔ)。這種綜合基礎(chǔ)設(shè)施旨在支持廣泛的應(yīng)用程序和技術(shù)。本文將深入探討它是什么、為什么它很重要以及它為組織提供的好處
    的頭像 發(fā)表于 04-07 10:58 ?425次閱讀

    TASKING編譯器是否可以將數(shù)據(jù)結(jié)構(gòu)設(shè)置為 \"打包\"?

    TASKING 編譯器是否可以將數(shù)據(jù)結(jié)構(gòu)設(shè)置為 \"打包\"? GCC 很早以前就提供了這種可能性,可以將__attribute__((packed))與對(duì)齊指令結(jié)合使用。 對(duì)于
    發(fā)表于 03-05 06:00

    矢量與柵格數(shù)據(jù)結(jié)構(gòu)各有什么特征

    矢量數(shù)據(jù)結(jié)構(gòu)和柵格數(shù)據(jù)結(jié)構(gòu)是地理信息系統(tǒng)(GIS)中最常用的兩種數(shù)據(jù)結(jié)構(gòu)。它們?cè)诖鎯?chǔ)和表示地理要素上有著不同的方法和特征。在接下來(lái)的文章中,我們將詳細(xì)介紹這兩種數(shù)據(jù)結(jié)構(gòu)并比較它們的特點(diǎn)
    的頭像 發(fā)表于 02-25 15:06 ?2676次閱讀

    區(qū)塊鏈?zhǔn)鞘裁礃拥?b class='flag-5'>數(shù)據(jù)結(jié)構(gòu)組織

    區(qū)塊鏈?zhǔn)且环N特殊的數(shù)據(jù)結(jié)構(gòu),它以分布式、去中心的方式組織和存儲(chǔ)數(shù)據(jù)。區(qū)塊鏈的核心原理是將數(shù)據(jù)分布在網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)上,通過(guò)密碼學(xué)算法保證數(shù)據(jù)
    的頭像 發(fā)表于 01-11 10:57 ?2291次閱讀