一種新聞關(guān)鍵信息的提取算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)網(wǎng)頁(yè)正文提取算法缺乏通用性,以及對(duì)新聞網(wǎng)頁(yè)的提取缺乏標(biāo)題、時(shí)間、來(lái)源信息的問(wèn)題,提出一種新聞關(guān)鍵信息的提取算法newsExtractor。該算法首先通過(guò)預(yù)處理將網(wǎng)頁(yè)轉(zhuǎn)換成行號(hào)和文本的集合,然后根據(jù)字?jǐn)?shù)最長(zhǎng)的一句話出現(xiàn)在新聞?wù)牡母怕蕵O高的特點(diǎn),從正文中間開(kāi)始向兩端尋找正文的起點(diǎn)和終點(diǎn)提取新聞?wù)?,根?jù)最長(zhǎng)公共子串算法提取標(biāo)題,構(gòu)造正則表達(dá)式并以行號(hào)輔助判斷提取時(shí)間,根據(jù)來(lái)源的格式特點(diǎn)并輔以行號(hào)提取來(lái)源;最后構(gòu)造了數(shù)據(jù)集與國(guó)外開(kāi)源軟件newsPaper進(jìn)行提取準(zhǔn)確率的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,newsExtractor在正文、標(biāo)題、時(shí)間、來(lái)源的平均提取準(zhǔn)確率上均優(yōu)于newsPaper,具有通用性和魯棒性。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
一種新聞關(guān)鍵信息的提取算法下載
相關(guān)電子資料下載
- 分享一種基于深度圖像梯度的線特征提取算法download 1001
- 面板AOI檢測(cè)之ROI自動(dòng)提取算法解析 3373
- 面向SLAM魯棒應(yīng)用提出了基于RGB特征點(diǎn)提取算法 949
- 折疊缺陷檢測(cè)提取算法 989
- 剖析彩色視頻運(yùn)動(dòng)目標(biāo)自適應(yīng)在線聚類提取算法 1307
- 一種使用快速行進(jìn)水平集方法進(jìn)行距離變換的三維中軸提取算法 2348
- 基于視頻速度應(yīng)用在FPGA上實(shí)現(xiàn)的結(jié)構(gòu)光中心線提取算法 1254
- HanLP 關(guān)鍵詞提取算法分析 374
- FPGA二值圖像邊界提取算法實(shí)現(xiàn) 3732
- HOG特征以及提取算法的實(shí)現(xiàn)過(guò)程 17599