一種面向數(shù)學(xué)檢索的LaTeX數(shù)學(xué)表達(dá)式解析與索引方法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
針對(duì)數(shù)學(xué)表達(dá)式復(fù)雜二維結(jié)構(gòu)特性所導(dǎo)致的普通文本檢索技術(shù)難以對(duì)其進(jìn)行檢索的問題,提出了一種面向數(shù)學(xué)檢索的LaTeX數(shù)學(xué)表達(dá)式解析與索引方法。在充分考慮公式特點(diǎn)的基礎(chǔ)上,通過對(duì)LaTeX構(gòu)成特點(diǎn)的分析和歸納,設(shè)計(jì)了LaTeX數(shù)學(xué)表達(dá)式的解析和檢索特征提取算法;以此為基礎(chǔ),構(gòu)建了一種適應(yīng)數(shù)學(xué)表達(dá)式特性的雙層索引結(jié)構(gòu),利用所提取數(shù)學(xué)表達(dá)式各層次運(yùn)算數(shù)和運(yùn)算符信息,分別以Treap數(shù)據(jù)結(jié)構(gòu)和倒排索引結(jié)構(gòu)構(gòu)成數(shù)學(xué)表達(dá)式索引,為實(shí)現(xiàn)進(jìn)一步的數(shù)學(xué)表達(dá)式檢索匹配打下基礎(chǔ)。在瀏覽器/服務(wù)器模式下采用6234條數(shù)學(xué)教材中的公式作為數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),在解析獲得的124960個(gè)基線層數(shù)最高為11層的表達(dá)式節(jié)點(diǎn)上,建立索引平均耗時(shí)為33. 8317 s。實(shí)驗(yàn)結(jié)果表明所提出的LaTeX表達(dá)式解析算法和索引結(jié)構(gòu)能夠適應(yīng)數(shù)學(xué)表達(dá)式的特點(diǎn),有助于實(shí)現(xiàn)具有較高效率和準(zhǔn)確性的數(shù)學(xué)表達(dá)式檢索。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%