0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于人工智能技術(shù)的OCR應(yīng)用

新機(jī)器視覺 ? 來源:中國(guó)檔案報(bào) ? 作者:徐亮 ? 2021-04-09 10:54 ? 次閱讀

光學(xué)字符識(shí)別(Optical Character Recognition,OCR)是將圖像中的文字信息轉(zhuǎn)化為可供計(jì)算機(jī)處理的字符信息的技術(shù),發(fā)揮著計(jì)算機(jī)“眼睛”的功能,是機(jī)器與現(xiàn)實(shí)世界進(jìn)行視覺交互的重要技術(shù)基礎(chǔ)。

早期的OCR技術(shù)可追溯到1870年,電報(bào)技術(shù)和為盲人設(shè)計(jì)的閱讀設(shè)備的出現(xiàn)標(biāo)志著OCR的誕生。近年來,隨著人工智能技術(shù)在OCR中的實(shí)際應(yīng)用,OCR的性能和效率都得到了很大的提升。

如今,基于人工智能的OCR已經(jīng)廣泛應(yīng)用于金融、交通、政務(wù)、司法、醫(yī)療等多個(gè)領(lǐng)域,進(jìn)入到人們生產(chǎn)生活的方方面面。

檔案OCR是利用OCR技術(shù)對(duì)紙質(zhì)檔案數(shù)字化副本等圖像文件中的字符形狀進(jìn)行識(shí)別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。

利用人工智能技術(shù)開展檔案OCR工作,對(duì)于提高工作效率和準(zhǔn)確性,加快自動(dòng)著錄、全文檢索、數(shù)據(jù)分析等系統(tǒng)功能更好實(shí)現(xiàn),推動(dòng)檔案信息資源建設(shè)從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)型具有重要意義。

檔案OCR工作現(xiàn)狀

2013年以來,在國(guó)家檔案局大力實(shí)施“存量數(shù)字化、增量電子化”的戰(zhàn)略背景下,紙質(zhì)檔案數(shù)字化副本大量產(chǎn)生。全國(guó)各級(jí)檔案館(室)存量檔案數(shù)字化工作成效顯著,數(shù)字化比例大幅提高,很多檔案部門已完成全部館藏檔案的數(shù)字化工作。

截至2019年年底,全國(guó)各級(jí)綜合檔案館館藏檔案數(shù)字化副本容量已達(dá)1407.8萬GB(吉字節(jié))。當(dāng)前,檔案OCR工作已全面啟動(dòng),相關(guān)標(biāo)準(zhǔn)規(guī)范已適時(shí)出臺(tái)。部分地區(qū)檔案部門在完成紙質(zhì)檔案數(shù)字化工作的基礎(chǔ)上,紛紛開展了檔案OCR工作。

也有一些檔案部門在開展檔案數(shù)字化工作的同時(shí),同步開展了檔案OCR工作。為規(guī)范相關(guān)工作的開展,國(guó)家檔案局因勢(shì)利導(dǎo),于2019年12月發(fā)布《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識(shí)別(OCR)工作規(guī)范》,規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件OCR工作的組織、實(shí)施和管理要求,確定了開展檔案OCR工作的總體原則、工作流程、質(zhì)量規(guī)定等?;诖?,檔案部門相關(guān)工作取得了大量成果,未來檔案OCR將融入更廣泛、更深層次的檔案工作中。

傳統(tǒng)OCR的不足

在人工智能技術(shù)廣泛應(yīng)用之前,文字的自動(dòng)化識(shí)別是一項(xiàng)十分艱巨、亟需解決的問題。傳統(tǒng)OCR識(shí)別是以文字基本外形為基礎(chǔ),對(duì)文字字符之間的差別進(jìn)行統(tǒng)計(jì)分析,再找到一組最優(yōu)的、可以代表文字之間差異的統(tǒng)計(jì)學(xué)參數(shù),從而實(shí)現(xiàn)對(duì)文字的篩選和識(shí)別。

傳統(tǒng)OCR工作流程包括圖像導(dǎo)入、圖像預(yù)處理、版面分析、文字切割、文字識(shí)別等過程。多年來,人們對(duì)傳統(tǒng)OCR工作流程進(jìn)行過大量?jī)?yōu)化研究,但是受限于流程的復(fù)雜性和人工設(shè)計(jì)特征的表達(dá)能力等,傳統(tǒng)的文字檢測(cè)與識(shí)別方法對(duì)于較為復(fù)雜的圖像,例如帶有畸變以及模糊的圖像,最終的文字識(shí)別結(jié)果往往不盡如人意。

傳統(tǒng)OCR對(duì)中文字符識(shí)別的不足,主要表現(xiàn)在以下4個(gè)方面。

一是傳統(tǒng)OCR處理流程的工序太多,且多串行,導(dǎo)致錯(cuò)誤不斷被傳遞放大。如,在OCR處理流程中,假如每一步都是90%的正確率,看似很高,但是經(jīng)過5步的錯(cuò)誤疊加之后,結(jié)果就已經(jīng)不合格了。

二是傳統(tǒng)OCR處理流程涉及較多人工設(shè)計(jì),并不一定能夠抓住問題的本質(zhì)。例如,在文字的二值化這一預(yù)處理過程中,二值化的閾值在一些情況下很難調(diào)整好。由于這個(gè)模型的復(fù)雜度較低且無法充分?jǐn)M合全部數(shù)據(jù),在實(shí)際處理過程中不得不過濾掉很多有用的信息。

三是在一些背景稍微復(fù)雜或者存在變體文字的情況下,傳統(tǒng)OCR基本會(huì)失效,處理模型的適應(yīng)性較弱。版面分析以及行切分的方式只能處理相對(duì)簡(jiǎn)單的場(chǎng)景,一旦面臨復(fù)雜排版等情況,就很難實(shí)現(xiàn)準(zhǔn)確處理。

四是對(duì)單字的識(shí)別,傳統(tǒng)OCR無法考慮到上下文的語義關(guān)聯(lián)。為了解決這個(gè)問題,傳統(tǒng)OCR進(jìn)行了很多組合,如,對(duì)識(shí)別的結(jié)果進(jìn)行動(dòng)態(tài)路徑搜索。在路徑尋優(yōu)過程中,經(jīng)常需要結(jié)合文字的外觀特征以及語言模型進(jìn)行處理,存在較多的耦合,導(dǎo)致在識(shí)別系統(tǒng)中堆砌了較多的算法

即便如此,傳統(tǒng)OCR也存在很多無法處理的問題,如,手寫字體等存在較多的筆畫粘連,傳統(tǒng)OCR很難進(jìn)行切分。以上這些不足,造成傳統(tǒng)OCR的識(shí)別率相對(duì)較低,識(shí)別時(shí)間相對(duì)較長(zhǎng)。

基于人工智能技術(shù)的OCR

近年來,隨著計(jì)算機(jī)視覺、自然語言理解、知識(shí)圖譜等人工智能技術(shù)在OCR中的實(shí)際使用,OCR的性能和效率都得到了很大提升。通過深度學(xué)習(xí)的自適應(yīng)學(xué)習(xí)驅(qū)動(dòng)方式,能夠更好地應(yīng)對(duì)傳統(tǒng)OCR產(chǎn)生的一些問題,簡(jiǎn)化參數(shù)預(yù)處理的流程,實(shí)現(xiàn)端到端的處理,提高OCR識(shí)別率。

目前,基于人工智能技術(shù)的OCR在簡(jiǎn)體印刷文字方面的識(shí)別率已達(dá)98%以上。人工智能OCR技術(shù)還能應(yīng)用于具有多樣性和復(fù)雜性的識(shí)別場(chǎng)景。如,不同大小、字體、顏色、亮度、對(duì)比度的文字,排列和對(duì)齊方式不相同的文字,圖像的非文字區(qū)域與文字區(qū)域存在相似的紋理,低對(duì)比度、模糊斷裂、殘缺文字等。因此,人工智能OCR不僅能應(yīng)用于文檔的識(shí)別,還可應(yīng)用于自然場(chǎng)景文字圖像的識(shí)別。

此外,人工智能OCR還能提高工作效率、節(jié)省大量成本。基于此,將人工智能OCR應(yīng)用在檔案工作中,具有重要的作用和意義,必將成為支撐檔案行業(yè)數(shù)字轉(zhuǎn)型、智能升級(jí)、融合創(chuàng)新的重要基礎(chǔ)。人工智能OCR工作流程主要包括圖像輸入、文本檢測(cè)、文本識(shí)別、人工確認(rèn)、人工干預(yù)等。首先,將需要識(shí)別的紙質(zhì)檔案數(shù)字化副本圖像單個(gè)或批量導(dǎo)入OCR系統(tǒng)中。

其次,進(jìn)行文本檢測(cè)。文本檢測(cè)主要是定位文字在數(shù)字圖像中的位置,并進(jìn)行位置標(biāo)注。文本檢測(cè)的方法主要有基于候選框的文本檢測(cè)、基于語義分割的文本檢測(cè),以及基于兩種方法的混合方法等?;诤蜻x框的文本檢測(cè)是先預(yù)生成若干候選框,之后再回歸坐標(biāo)和分類,最后經(jīng)過NMS(非極大抑制)算法得到最終的檢測(cè)結(jié)果;基于語義分割的文本檢測(cè)是通過FPN(特征金字塔網(wǎng)絡(luò))直接進(jìn)行像素級(jí)別的語義分割,并處理得到相關(guān)的坐標(biāo)。再次,進(jìn)行文本識(shí)別。

文本識(shí)別主要是針對(duì)定位好的文字區(qū)域,識(shí)別文本的具體內(nèi)容,并將圖像中的一串文字轉(zhuǎn)換為對(duì)應(yīng)的字符。文本識(shí)別的算法可分為基于CTC(連接時(shí)序分類)技術(shù)的方法和基于注意力機(jī)制的網(wǎng)絡(luò)模型兩大類。其中,基于CTC技術(shù)的方法可以有效地捕獲輸入序列的下文依賴關(guān)系,同時(shí)能夠很好地解決圖像和文本字符對(duì)不齊的問題,但在自由度較大的手寫場(chǎng)景下會(huì)出現(xiàn)識(shí)別錯(cuò)誤。

基于注意力機(jī)制的網(wǎng)絡(luò)模型主要應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)特征權(quán)重的分配上,并提高強(qiáng)特征的權(quán)重、降低弱特征的權(quán)重,在由圖像到文字的解碼過程中有天然的語義捕獲能力。然后,進(jìn)行人工確認(rèn)。對(duì)OCR識(shí)別后的結(jié)果進(jìn)行確認(rèn),判斷是否出錯(cuò)。

在人工確認(rèn)過程中,可以采用后期批量處理等靈活性較強(qiáng)的方式。最后,進(jìn)行人工干預(yù),修正OCR識(shí)別結(jié)果中可能存在的錯(cuò)誤。人工智能OCR可采用獨(dú)立式或嵌入式等方式應(yīng)用在檔案數(shù)字化系統(tǒng)中。獨(dú)立式是作為獨(dú)立軟件使用,或者通過應(yīng)用程序接口(API)進(jìn)行數(shù)據(jù)交互,不依賴于檔案數(shù)字化系統(tǒng)。

嵌入式是將OCR模塊嵌入檔案數(shù)字化系統(tǒng),作為其功能的一部分,需要在設(shè)計(jì)開發(fā)檔案管理系統(tǒng)時(shí)進(jìn)行統(tǒng)一規(guī)劃,或?qū)σ延械南到y(tǒng)進(jìn)行改造。目前,人工智能OCR已被引入多個(gè)行業(yè)領(lǐng)域,但在檔案行業(yè)應(yīng)用中仍存在難點(diǎn)和不足,主要體現(xiàn)在兩個(gè)方面。

一是檔案文字存在多樣性。檔案類型多種多樣,文字內(nèi)容包羅萬象,存在不同語言、字體、大小、顏色、亮度、排列和對(duì)齊方式,以及圖像內(nèi)容對(duì)比度低、模糊斷裂、殘缺等問題,甚至存在出現(xiàn)識(shí)別難度更大的不同時(shí)期手寫體、繁簡(jiǎn)體等各種情況。這些問題或情況給檔案OCR工作帶來了各種挑戰(zhàn),人工智能OCR也無法解決所有的問題,這就需要工作人員結(jié)合實(shí)際情況,尋找基于特定技術(shù)條件的最優(yōu)工作解決方案。

二是技術(shù)瓶頸。近年來,雖然人工智能OCR使機(jī)器識(shí)別文字的性能和效率得到了顯著提升,但是,機(jī)器識(shí)別文字的能力和水平與工作人員理解圖像中文字的能力和水平相比,依然存在較大差距??傮w來看,仍需繼續(xù)不斷提升OCR的魯棒性、效率性和智能化水平,才能更好地將其應(yīng)用在難度更大、情況更復(fù)雜的檔案工作中。
編輯:lyn

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47514

    瀏覽量

    239241
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1699

    瀏覽量

    46052
  • OCR
    OCR
    +關(guān)注

    關(guān)注

    0

    文章

    145

    瀏覽量

    16395

原文標(biāo)題:圖像識(shí)別技術(shù)在檔案OCR工作中的應(yīng)用

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    嵌入式和人工智能究竟是什么關(guān)系?

    了重要作用。在未來,隨著嵌入式系統(tǒng)和人工智能技術(shù)的不斷進(jìn)步,我們可以預(yù)見更多創(chuàng)新應(yīng)用的出現(xiàn),為社會(huì)發(fā)展和生活品質(zhì)的提升帶來更多可能性。
    發(fā)表于 11-14 16:39

    對(duì)話華為大咖,探討油氣行業(yè)數(shù)字化轉(zhuǎn)型和人工智能技術(shù)的應(yīng)用與實(shí)踐

    數(shù)智化浪潮下,千行百業(yè)迎來新變革。油氣行業(yè)作為國(guó)民經(jīng)濟(jì)的重要組成部分,是數(shù)字化轉(zhuǎn)型的主戰(zhàn)場(chǎng)之一,人工智能技術(shù)的應(yīng)用已成為油氣數(shù)字化轉(zhuǎn)型的關(guān)鍵一步??捎蜌庑袠I(yè)轉(zhuǎn)型現(xiàn)狀如何?人工智能技術(shù)如何應(yīng)用于油氣
    的頭像 發(fā)表于 10-19 20:08 ?846次閱讀
    對(duì)話華為大咖,探討油氣行業(yè)數(shù)字化轉(zhuǎn)型和<b class='flag-5'>人工智能技術(shù)</b>的應(yīng)用與實(shí)踐

    未來智慧建筑:人工智能技術(shù)的無限可能

    隨著科技的不斷發(fā)展,人工智能技術(shù)正逐漸滲透到各行各業(yè),其中,在智能建筑領(lǐng)域的應(yīng)用備受矚目。智能建筑結(jié)合了傳統(tǒng)建筑與先進(jìn)科技的完美融合,在提高建筑效率、節(jié)能環(huán)保、增強(qiáng)安全性等方面發(fā)揮著重要作用。古河云
    的頭像 發(fā)表于 10-17 14:07 ?265次閱讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    探討了人工智能如何通過技術(shù)創(chuàng)新推動(dòng)能源科學(xué)的進(jìn)步,為未來的可持續(xù)發(fā)展提供了強(qiáng)大的支持。 首先,書中通過深入淺出的語言,介紹了人工智能在能源領(lǐng)域的基本概念和技術(shù)原理。這使得我對(duì)
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    很幸運(yùn)社區(qū)給我一個(gè)閱讀此書的機(jī)會(huì),感謝平臺(tái)。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章關(guān)于AI與生命科學(xué)的部分,為我們揭示了人工智能技術(shù)在生命科學(xué)領(lǐng)域中的廣泛應(yīng)用和深遠(yuǎn)影響。在
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第一章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    ,無疑為讀者鋪設(shè)了一條探索人工智能(AI)如何深刻影響并推動(dòng)科學(xué)創(chuàng)新的道路。在閱讀這一章后,我深刻感受到了人工智能技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用潛力以及其帶來的革命性變化,以下是我個(gè)人的學(xué)習(xí)心得: 1.
    發(fā)表于 10-14 09:12

    risc-v在人工智能圖像處理應(yīng)用前景分析

    RISC-V和Arm內(nèi)核及其定制的機(jī)器學(xué)習(xí)和浮點(diǎn)運(yùn)算單元,用于處理復(fù)雜的人工智能圖像處理任務(wù)。 四、未來發(fā)展趨勢(shì) 隨著人工智能技術(shù)的不斷發(fā)展和普及,RISC-V在人工智能圖像處理領(lǐng)域的應(yīng)用前景將更加廣闊。以下
    發(fā)表于 09-28 11:00

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.44】AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新

    每個(gè)交叉領(lǐng)域,本書通過案例進(jìn)行了詳盡的介紹,梳理了產(chǎn)業(yè)地圖,并給出了相關(guān)政策啟示。 《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》適合所有關(guān)注人工智能技術(shù)和產(chǎn)業(yè)發(fā)展的讀者閱讀,特別適合材料科學(xué)
    發(fā)表于 09-09 13:54

    報(bào)名開啟!深圳(國(guó)際)通用人工智能大會(huì)將啟幕,國(guó)內(nèi)外大咖齊聚話AI

    呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于一體的世界級(jí)人工智能合作交流平臺(tái)。本次大會(huì)暨博覽會(huì)由工業(yè)和信息化部政府采購(gòu)中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市工信局等單位指導(dǎo),深圳市人工智能產(chǎn)業(yè)協(xié)會(huì)主辦
    發(fā)表于 08-22 15:00

    FPGA在人工智能中的應(yīng)用有哪些?

    定制化的硬件設(shè)計(jì),提高了硬件的靈活性和適應(yīng)性。 綜上所述,F(xiàn)PGA在人工智能領(lǐng)域的應(yīng)用前景廣闊,不僅可以用于深度學(xué)習(xí)的加速和云計(jì)算的加速,還可以針對(duì)特定應(yīng)用場(chǎng)景進(jìn)行定制化計(jì)算,為人工智能技術(shù)的發(fā)展提供有力支持。
    發(fā)表于 07-29 17:05

    人工智能技術(shù)在集成電路中的應(yīng)用

    隨著科技的飛速發(fā)展,人工智能(AI)與集成電路技術(shù)已成為推動(dòng)現(xiàn)代電子工業(yè)進(jìn)步的重要力量。兩者相輔相成,共同推動(dòng)著電子產(chǎn)品的智能化、高效化和可靠化。本文將從多個(gè)角度詳細(xì)探討人工智能技術(shù)
    的頭像 發(fā)表于 07-15 09:43 ?3525次閱讀

    Google開發(fā)專為視頻生成配樂的人工智能技術(shù)

    近日,科技巨頭Google旗下的人工智能研究實(shí)驗(yàn)室DeepMind宣布了一項(xiàng)引人注目的技術(shù)突破——V2A技術(shù)(Video to Audio),這是一項(xiàng)專為視頻生成配樂的人工智能技術(shù)。這
    的頭像 發(fā)表于 06-20 11:03 ?530次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國(guó)家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級(jí)的核心驅(qū)動(dòng)力。同時(shí)在此背景驅(qū)動(dòng)下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    谷歌發(fā)布多項(xiàng)AI功能,引領(lǐng)人工智能技術(shù)新篇章

    近日,谷歌發(fā)布了一系列令人矚目的新功能,進(jìn)一步推動(dòng)了人工智能技術(shù)在各個(gè)領(lǐng)域的應(yīng)用。
    的頭像 發(fā)表于 02-05 10:37 ?919次閱讀

    人工智能技術(shù)的優(yōu)勢(shì)有哪些

    人工智能技術(shù)的優(yōu)勢(shì)
    的頭像 發(fā)表于 01-19 15:58 ?3212次閱讀