網(wǎng)絡(luò)原指用一個(gè)巨大的虛擬畫(huà)面,把所有東西連接起來(lái),也可以作為動(dòng)詞使用。在計(jì)算機(jī)領(lǐng)域中,網(wǎng)絡(luò)就是用物理鏈路將各個(gè)孤立的工作站或主機(jī)相連在一起,組成數(shù)據(jù)鏈路,從而達(dá)到資源共享和通信的目的。凡將地理位置不同,并具有獨(dú)立功能的多個(gè)計(jì)算機(jī)系統(tǒng)通過(guò)通信設(shè)備和線路而連接起來(lái),且以功能完善的網(wǎng)絡(luò)軟件(網(wǎng)絡(luò)協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等)實(shí)現(xiàn)網(wǎng)絡(luò)資源共享的系統(tǒng),可稱(chēng)為計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)絡(luò)的迅速發(fā)展,使人們不僅面臨信息爆炸,同時(shí)也面臨著如何從浩如煙海的信息中獲取自己所需信息的難題。如何有效地組織和處理海量的信息,并過(guò)濾和管理網(wǎng)絡(luò)資源,已成為必須面對(duì)的問(wèn)題。
為了網(wǎng)頁(yè)信息的有效組織和檢索,人們開(kāi)發(fā)了各種網(wǎng)絡(luò)信息搜索器,在一定程度上確實(shí)提高了網(wǎng)絡(luò)信息的利用率。與文本分類(lèi)技術(shù)相比較,網(wǎng)頁(yè)分類(lèi)更加復(fù)雜,這是由網(wǎng)頁(yè)的結(jié)構(gòu)特征決定的,但是網(wǎng)頁(yè)的信息主要是通過(guò)文本的方式向人們傳遞的,所以在對(duì)網(wǎng)頁(yè)分類(lèi)之前,首先要對(duì)其中的文本進(jìn)行提取,對(duì)所提取的文本分類(lèi),最終使網(wǎng)頁(yè)分類(lèi)問(wèn)題轉(zhuǎn)化為文本分類(lèi)問(wèn)題。
目前,文本分類(lèi)技術(shù)的研究比較活躍,已經(jīng)出現(xiàn)了多種文本分類(lèi)算法,并且被廣泛應(yīng)用于多個(gè)領(lǐng)域:信息檢索、搜索引擎、文本數(shù)據(jù)庫(kù)等。文本分類(lèi)算法基本是基于概率統(tǒng)計(jì)模型,本文就是基于互信息(MI)提出一種改進(jìn)的特征提取方法,并根據(jù)TFIDF提出一種新的特征權(quán)值計(jì)算方法構(gòu)建中文網(wǎng)頁(yè)分類(lèi)器。
1 網(wǎng)頁(yè)預(yù)處理
網(wǎng)頁(yè)分類(lèi)之前首先要進(jìn)行預(yù)處理,實(shí)際上就是HTML解析,把解析出來(lái)的內(nèi)容用于文本分類(lèi),選取網(wǎng)頁(yè)中的下面這些文本用于分類(lèi):
(1)錨文本。錨文本是網(wǎng)頁(yè)中用于指示所連接網(wǎng)頁(yè)內(nèi)容的提示,由于后面要對(duì)提取的文本進(jìn)行分類(lèi),所以只提取文字形式的錨文本。
(2)title文本。這樣的文本可能是網(wǎng)頁(yè)中最重要的標(biāo)簽,必須取得。
(3)meta標(biāo)簽。其重要的功能就是設(shè)置關(guān)鍵字,網(wǎng)頁(yè)的制作者往往都設(shè)置了關(guān)鍵字,來(lái)提高網(wǎng)頁(yè)的搜索點(diǎn)擊率??梢岳胢eta標(biāo)簽中的有關(guān)文本內(nèi)容進(jìn)行網(wǎng)頁(yè)分類(lèi)。
(4)主文本。上面這些信息獲取之后,網(wǎng)頁(yè)中剩余的文本信息還在各種HTML標(biāo)簽中,在HTML源文件中,主文本有可能不是連續(xù)出現(xiàn)的。主文本一般是網(wǎng)頁(yè)中文字最集中的較長(zhǎng)的字符串,查看源文件,那些比較長(zhǎng)的字符串是整個(gè)出現(xiàn)在1個(gè)標(biāo)簽中的。
文本首先要確定的問(wèn)題就是表示文本的基本單位,用于表示文本的基本單位通常稱(chēng)為文本的特征或特征項(xiàng)。中文文本不同于英文文本,英文文本以空格為分隔符,非常明確。而中文文本需要對(duì)其進(jìn)行分詞處理才能得出每個(gè)特征。本文采用中科院計(jì)算技術(shù)研究所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS3.0進(jìn)行分詞。如果把這些對(duì)文本分類(lèi)沒(méi)有意義的虛詞作為特征,將會(huì)帶來(lái)很大噪音,降低文本分類(lèi)的效率和準(zhǔn)確率。因此,在提取文本特征時(shí),應(yīng)首先考慮剔除這些對(duì)文本分類(lèi)沒(méi)有用處的虛詞,而在實(shí)詞中,又以名詞和動(dòng)詞對(duì)于文本的類(lèi)別特性的表現(xiàn)力最強(qiáng)。
2 特征提取
特征提取就是提取出最能代表某篇文章或某類(lèi)的特征項(xiàng),以達(dá)到降維的效果從而減少文本分類(lèi)的計(jì)算量。典型特征提取方法:信息增益(Information Gain),互信息(MI)、文檔頻度(DF)。傳統(tǒng)的MI特征提取方法:
計(jì)算出所有特征詞的統(tǒng)計(jì)值后,從大到小進(jìn)行排序,然后根據(jù)需要從上到下選取一定數(shù)量的特征詞構(gòu)建文本分類(lèi)的特征詞庫(kù)。
3 特征加權(quán)及向量化
TFIDF算法及其改進(jìn)型[5]有多種公式,本文使用一種新的改進(jìn)的TF-IDF公式來(lái)計(jì)算特征詞的權(quán)重。TF-IDF公式有很多變種,比較常見(jiàn)的TF-IDF公式:
:
-
HTML
+關(guān)注
關(guān)注
0文章
278瀏覽量
35828 -
分類(lèi)器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13201 -
文本
+關(guān)注
關(guān)注
0文章
118瀏覽量
17092
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論