0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新型的端到端弱監(jiān)督篇幅級手寫中文文本識別方法PageNet

CVer ? 來源:CSIG文檔圖像分析與識別專 ? 2023-01-12 14:12 ? 次閱讀

本文簡要介紹2022年8月發(fā)表于IJCV的論文“PageNet: Towards End-to-End Weakly Supervised Page-Level Handwritten Chinese Text Recognition”的主要工作。該工作針對篇幅級手寫中文文本識別問題,提出了端到端弱監(jiān)督的方法PageNet。該方法的主要優(yōu)勢在于:(1)從一個新的角度解決篇幅級中文文本識別問題——檢測識別單字并預測單字間的閱讀順序。(2)模型可以弱監(jiān)督地訓練。對于真實數據僅需要標注文本,不需要任何邊界框標注,極大地降低了數據的標注成本。(3)盡管只需要文本標注信息,模型卻可以預測出單字級和文本行級的檢測和識別結果。實驗證明這種能力可以應用于對數據進行無需人工干預的高精度的自動標注。(4)該方法深入研究篇幅級文本識別中的閱讀順序問題,所提出的閱讀順序模塊可以處理多方向文本、彎曲文本等復雜的閱讀順序。(5)實驗證明該方法具有較強的泛化能力,適用于掃描、古籍、拍照和多語言等多種文檔類型。

一、背景

手寫中文文本識別是一個具有廣泛應用場景的研究方向。目前該領域的相關研究通常關注文本行級的手寫中文識別,不考慮在實際應用中因為文本行檢測帶來的誤差。近年來,也有部分研究關注篇幅級的文本識別,但是它們要么僅考慮簡單的版面結構,要么需要極為細致的標注信息(文本行級甚至單字級的邊界框)。同時,領域內對于閱讀順序的研究較少,而實際應用中會出現多方向文本、彎曲文本等復雜的閱讀順序。為了解決上述問題,這篇文章中提出一種新型的端到端弱監(jiān)督篇幅級手寫中文文本識別方法PageNet。該方法拋棄文本行檢測+文本行識別的傳統(tǒng)流程,先檢測識別單字再預測單字間的閱讀順序,這使得PageNet可以輕松處理復雜的板式和閱讀順序。對于真實數據,PageNet僅需要文本標注,但是可以輸出文本行級和單字級的檢測和識別結果,省去了標注文本行級和單字級邊界框的巨額成本(表1)。實驗證明PageNet優(yōu)于現有的弱監(jiān)督和全監(jiān)督篇幅級文本識別方法。

表1 現有方法需要的標注信息和模型輸出結果的對比(L: 文本行級,W: 單詞級,C:單字級)。PageNet僅需要文本標注即可得到文本行級和單字級的檢測和識別結果。

822d8b7c-88d5-11ed-bfe3-dac502259ad0.png

二、方法

2.1算法框架

8246d7c6-88d5-11ed-bfe3-dac502259ad0.png

圖1 PageNet方法整體框架

PageNet方法的整體框架如圖1所示,包括四個部分:(1)主干網絡提取輸入圖像的高維特征;(2)檢測和識別模塊完成單字的檢測識別;(3)閱讀順序模塊預測單字間的閱讀順序;(4)基于圖的解碼算法結合單字的檢測識別結果和閱讀順序,得到最終的篇幅級結果。該結果包含文本行級和單字級的檢測識別結果。

此外,為了省去人工標注單字和文本行邊界框的成本,文章中提出了一種新型的弱監(jiān)督學習方法 (圖4)。借助該方法,僅需要對真實數據標注各行的文本信息即可訓練PageNet。

2.2 主干網絡

主干網絡采用多個殘差模塊堆疊的結構。對于高為H、寬為W的輸入圖片,主干網絡輸出形狀為82723efc-88d5-11ed-bfe3-dac502259ad0.png512的特征圖。為了方便下文敘述,將827b9b96-88d5-11ed-bfe3-dac502259ad0.png分別標記為82868a88-88d5-11ed-bfe3-dac502259ad0.png。

2.3 檢測和識別模塊

檢測和識別模塊參考文獻[1]和[2],在主干網絡提取的特征的基礎上分為三個分支,分別為CharBox、CharDis和CharCls分支。首先將輸入圖片分為8292b830-88d5-11ed-bfe3-dac502259ad0.png個網格并將第i列第j行的網格標記為829ca8e0-88d5-11ed-bfe3-dac502259ad0.png。CharBox分支輸出形狀為82a58c76-88d5-11ed-bfe3-dac502259ad0.png的單字邊界框預測82afea0e-88d5-11ed-bfe3-dac502259ad0.png,其中82b85f72-88d5-11ed-bfe3-dac502259ad0.png可轉換為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中的單字邊界框坐標82ce395a-88d5-11ed-bfe3-dac502259ad0.png。CharDis分支預測形狀為8292b830-88d5-11ed-bfe3-dac502259ad0.png的字符分布82de34ea-88d5-11ed-bfe3-dac502259ad0.png,其中82eb92ac-88d5-11ed-bfe3-dac502259ad0.png為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中存在單字的置信度。CharCls分支預測形狀為8305573c-88d5-11ed-bfe3-dac502259ad0.png的字符分類結果83164b32-88d5-11ed-bfe3-dac502259ad0.png,其中8321e442-88d5-11ed-bfe3-dac502259ad0.png為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字的83370516-88d5-11ed-bfe3-dac502259ad0.png類分類概率。

2.4 閱讀順序模塊

83482990-88d5-11ed-bfe3-dac502259ad0.png

圖2 閱讀順序模塊框圖

閱讀順序模塊的整體流程如圖2所示。該模塊將閱讀順序預測問題分解為:(1)文本行開始字符預測;(2)根據字符間的連接關系逐步找到閱讀順序中的下一個字符;(3)行結束字符預測。其中,字符間的連接關系定義為字符間搜索路徑上網格的轉移方向(上下左右之一)。

對應地,該模塊分別預測:(1)行開始分布8365dce2-88d5-11ed-bfe3-dac502259ad0.png,其中837445a2-88d5-11ed-bfe3-dac502259ad0.png為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字為行開始的置信度;(2)四方向閱讀順序838c467a-88d5-11ed-bfe3-dac502259ad0.png,其中83998b50-88d5-11ed-bfe3-dac502259ad0.png為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png在閱讀順序中向其四個相鄰網格的轉移方向;(3)行結束分布83b1e95c-88d5-11ed-bfe3-dac502259ad0.png為網格829ca8e0-88d5-11ed-bfe3-dac502259ad0.png中單字為行結束的置信度。

2.5 基于圖的解碼算法

83c8c6c2-88d5-11ed-bfe3-dac502259ad0.png

圖3 基于圖的解碼算法流程

基于圖的解碼算法流程如圖3所示。該算法結合檢測識別模塊和閱讀順序模塊的輸出,得到最終的單字級和文本行級的檢測和識別結果。首先,檢測識別模塊中三個分支的輸出83de71b6-88d5-11ed-bfe3-dac502259ad0.png經過非極大值抑制(NMS)得到單字的檢測和識別結果;然后,每個單字視為圖結構中的一個節(jié)點。每個節(jié)點根據相應單字框中心點的坐標對應一個網格。接下來,基于四方向閱讀順序838c467a-88d5-11ed-bfe3-dac502259ad0.png,可以逐步根據網格的轉移方向找到每個節(jié)點在閱讀順序中的下一節(jié)點。這種連接關系構成圖結構的邊。下一步,根據行開始分布8365dce2-88d5-11ed-bfe3-dac502259ad0.png和行結束分布83b1e95c-88d5-11ed-bfe3-dac502259ad0.png,判定行開始節(jié)點和行結束節(jié)點。最后,保留開始于行開始節(jié)點并且結束于行結束節(jié)點的路徑,得到每個文本行的閱讀順序圖。將圖中的節(jié)點替換為對應的單字檢測和識別結果,即可得到單字級和文本行級的檢測識別結果。

2.6 弱監(jiān)督學習方法

8406e290-88d5-11ed-bfe3-dac502259ad0.png

圖4 弱監(jiān)督學習方法整體流程圖

弱監(jiān)督學習方法的整體流程圖如圖4所示。輸入數據包括僅有各行文本標注的真實數據和有完整標注的合成數據。為了驗證弱監(jiān)督學習方法的泛化性,合成數據采用將字體文件生成的漢字貼到簡單背景上的方法,因此與真實數據存在較大的差異。弱監(jiān)督學習方法需要將合成數據中學習到的檢測識別能力遷移到多種多樣的真實場景中。

對于僅有各行文本標注的真實數據,弱監(jiān)督學習方法借助偽標注,通過匹配、更新和優(yōu)化三個步驟完成對模型的訓練。(1)匹配分為語義匹配和空間匹配兩大類。語義匹配通過行匹配和單字匹配得到模型預測正確的單字。空間匹配是為了解決一張圖中存在多行相似或相同的文本造成的匹配模糊問題。(2)通過匹配可以得到識別正確的單字。文章中認為這些單字的邊界框是相對準確的。更新過程中使用這些邊界框通過復制或加權和的方式更新偽標注。(3)使用更新后的偽標注計算損失優(yōu)化模型。因為偽標注一般不完全包含所有單字的邊界框,模型損失的計算需要進行特殊的設計。特別是對于檢測識別模塊的CharDis分支,根據偽標注僅知某些網格中存在單字,無法完全判定不存在單字的網格(即負樣本)。因此,文章中借助在單字匹配中連續(xù)匹配結果為相同的字符。這些字符間根據閱讀順序模塊得到的搜索路徑中的網格可以以較高置信度判定為不存在單字,如此一來即可優(yōu)化CharDis分支。其余分支和模塊的損失計算方法可參考原文。

三、 實驗

3.1 實驗數據集

(1)CASIA-HWDB手寫中文數據集,包括篇幅級數據集CASIA-HWDB2.0-2.2(5091張圖片)和單字數據集CASIA-HWDB1.0-1.2(389萬個單字)。

(2)ICDAR2013手寫中文比賽測試集,包括篇幅級數據集ICDAR13(300張圖片)和單字數據集ICDAR13-SC(22萬個單字)。

(3)MTHv2中文古籍數據集,包括3199張古籍圖片,分為2399張訓練集和800張測試集。

(4)SCUT-HCCDoc拍照手寫數據集,包括12253張圖片,分為9801張訓練集和2452張測試集。

(5)JS-SCUT PrintCC中英文印刷文檔數據集,包括398張圖片,分為348張訓練集和50張測試集。

(6)合成數據集采用真實單字數據或字體生成的單字數據和網絡獲取的簡單紙張背景進行合成。首先將單字組成文本行,再將文本行以一定傾斜度貼在背景上。數據合成不涉及任何語料和其他復雜的光照、視角和扭曲變換等處理。合成數據的示例如圖5所示。

847c1e66-88d5-11ed-bfe3-dac502259ad0.png

圖5 合成數據示例

3.2 模型結構

模型結構如圖6所示。

84a0d206-88d5-11ed-bfe3-dac502259ad0.png

圖6 模型具體結構圖

3.3 評測指標

針對僅標注各行文本內容的弱監(jiān)督情況,提出了AR*和CR*指標。這兩種指標首先將模型預測文本行和標注文本行根據AR進行匹配。對已經匹配的文本行對,計算插入錯誤、刪除錯誤和替換錯誤并累積。對于沒有被匹配的預測文本行,其中所有單字均視為插入錯誤。對于沒有被匹配的標注文本行,其中所有單字均視為刪除錯誤。最后,采用類似于AR和CR的計算方式,得到AR*和CR*指標。

3.4 ICDAR13數據集

PageNet在ICDAR13篇幅級手寫中文數據集上的端到端識別指標和文本行檢測指標及其與現有方法的對比如下表所示。可以看出,PageNet超過了現有的全監(jiān)督和弱監(jiān)督方法,取得SoTA的端到端篇幅級識別指標。

表2 PageNet與現有方法在ICDAR13數據集上的對比

84c4d00c-88d5-11ed-bfe3-dac502259ad0.png

3.5 MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數據集

PageNet與現有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數據集上的端到端識別指標對比如下表所示??梢钥闯?,在MTHv2數據集上,PageNet取得了與最佳的全監(jiān)督模型相近的端到端識別指標。在SCUT-HCCDoc數據集上,因為該數據集涉及復雜的版面和光照、拍照角度等干擾,這對無真實場景文本位置信息監(jiān)督的PageNet提出了很大挑戰(zhàn)。但是借助合理設計的弱監(jiān)督學習方法,PageNet大幅度超過了其他弱監(jiān)督方法且與最佳的全監(jiān)督模型指標較為接近。在JS-SCUT PrintCC數據集上,PageNet取得了最高的端到端識別指標,證明該方法可以處理中英文混合的文檔場景。

表3 PageNet與現有方法在MTHv2、SCUT-HCCDoc和JS-SCUT PrintCC數據集上的對比

84d48bbe-88d5-11ed-bfe3-dac502259ad0.png

3.6 ICDAR13文本行級數據

PageNet與現有方法在ICDAR13文本行數據集(根據標注切出文本行)上的識別指標對比如下表所示??梢钥闯觯m然PageNet是在篇幅級進行識別且AR*和CR*需要考慮到文本行檢測的準確度,但是PageNet的指標仍然超過了現有的文本行級識別方法。這一結果證明了基于單字檢測和識別的方法相較于流行的基于CTC/Attention方法更加適合于中文文本識別。

表4 PageNet與現有方法在ICDAR13文本行數據集上的對比

84e89f3c-88d5-11ed-bfe3-dac502259ad0.png

3.7 單字檢測識別指標

PageNet與經典檢測方法Faster R-CNN和YOLOv3在ICDAR13數據集上的單字檢測識別指標如下表所示??梢钥吹饺醣O(jiān)督的PageNet在同時考慮單字檢測和識別時(7356C)取得了遠超全監(jiān)督的Faster R-CNN & YOLOv3的指標。

表5 PageNet與Faster R-CNN和YOLOv3在ICDAR13數據集上的單字檢測識別指標對比

84ff09b6-88d5-11ed-bfe3-dac502259ad0.png

3.8 實驗結果可視化

部分可視化結果如下圖所示,圖中左側為單字檢測識別結果,右側為閱讀順序預測結果。更多可視化結果請參見原文。

852b3f68-88d5-11ed-bfe3-dac502259ad0.png

854a21d0-88d5-11ed-bfe3-dac502259ad0.png

857b331a-88d5-11ed-bfe3-dac502259ad0.png

圖6 可視化結果

3.9 其他實驗

文章進一步用實驗證明了PageNet方法在多方向文本、任意彎曲文本上的有效性。同時,弱監(jiān)督學習得到的偽標注可以無需人工干預直接用作數據標注,訓練出與原始人工標注指標相近的模型。此外,實驗證明了PageNet對合成數據與真實場景的相似程度不敏感,保證了PageNet的泛化性。具體實驗結果請參見原文。

四、 總結及討論

該文章中提出一種新型的端到端弱監(jiān)督篇幅級手寫中文文本識別方法PageNet。PageNet從一個全新的角度解決篇幅級文本識別任務,即檢測識別單字和預測單字間的閱讀順序。文章提出的弱監(jiān)督學習方法使得僅需要人工標注各行的文本信息,無需標注文本位置信息,即可訓練PageNet得到單字級和文本行級的檢測識別結果。在多個不同場景的文檔數據集上的實驗結果證明了PageNet可以取得超過全監(jiān)督方法的端到端識別指標。同時,PageNet的篇幅級識別指標也可以超過現有的不考慮文本檢測的文本行級識別方法。此外,實驗也證明了PageNet可以很好地處理多方向文本和彎曲文本。弱監(jiān)督學習生成的偽標注可以無需人工干預直接用作標注,訓練出與人工標注指標相近的模型。相較于其他方法,PageNet對合成數據與真實場景的相似程度不敏感,可以更好地泛化至多種多樣的場景。該文章希望為端到端弱監(jiān)督篇幅級文本識別領域提供一種新的思路。

五、 相關資源

論文地址1:https://arxiv.org/abs/2207.14807

論文地址2:https://link.springer.com/article/10.1007/s11263-022-01654-0

代碼地址:https://github.com/shannanyinxiang/PageNet

參考文獻

[1] Dezhi Peng, et al. “A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition.” Proceedings of International Conference on Document Analysis and Recognition. 2019.

[2] Dezhi Peng, et al. “Recognition of handwritten Chinese text by segmentation: A segment-annotation-free approach.” IEEE Transactions on Multimedia. 2022.

[3] Dezhi Peng, et al. “PageNet: Towards end-to-end weakly supervised page-level handwritten Chinese text recognition” International Journal of Computer Vision. 2022.

原文作者:Dezhi Peng, Lianwen Jin, Yuliang Liu, Canjie Luo, Songxuan Lai

編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Ar
    Ar
    +關注

    關注

    24

    文章

    5096

    瀏覽量

    169568
  • 數據集
    +關注

    關注

    4

    文章

    1208

    瀏覽量

    24704
  • 半監(jiān)督學習

    關注

    0

    文章

    20

    瀏覽量

    2530

原文標題:頂刊IJCV 2022!PageNet:面向端到端弱監(jiān)督篇幅級手寫中文文本識別

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    電阻識別方法

    電阻識別方法
    發(fā)表于 08-02 21:59

    如何在java中去除中文文本的停用詞

    1.整體思路第一步:先將中文文本進行分詞,這里使用的HanLP-漢語言處理包進行中文文本分詞。第二步:使用停用詞表,去除分好的詞中的停用詞。2.中文文本分詞環(huán)境配置使用的HanLP-漢語言處理包
    發(fā)表于 04-30 09:38

    基于流形學習與SVM的手寫字符識別方法

    本文結合核方法、局部線性嵌入(LLE)和支持向量機等機器學習方法,提出了一種集成手寫字符維數約簡、特征提取及識別方法。鑒于LLE 方法對其近
    發(fā)表于 01-22 14:16 ?15次下載

    電容的識別方法

    電容的識別方法 電容的識別方法與電阻的識別方法基本相同,分直標法、色標法和數標法3種。 電容的基本單位用法拉(F)表示,其它單位還
    發(fā)表于 02-06 18:13 ?6477次閱讀

    基于無監(jiān)督特征學習的手勢識別方法

    基于無監(jiān)督特征學習的手勢識別方法_陶美平
    發(fā)表于 01-03 17:41 ?1次下載

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)

    基于AdaBoost_Bayes算法的中文文本分類系統(tǒng)_徐凱
    發(fā)表于 01-07 18:56 ?2次下載

    航天運載器端面特征的新型圖像特征識別方法_陳浩

    航天運載器端面特征的新型圖像特征識別方法_陳浩
    發(fā)表于 03-19 19:07 ?1次下載

    基于版本控制的中文文源代碼的自動跟蹤方法

    源代碼的自動跟蹤方法。首先,結合文本源代碼的啟發(fā)式規(guī)則,采用IR方法計算出文本和源代碼之間的相似度得分;然后,使用軟件開發(fā)和維護過程中提交
    發(fā)表于 12-14 10:54 ?0次下載
    基于版本控制的<b class='flag-5'>中文文</b>檔<b class='flag-5'>到</b>源代碼的自動跟蹤<b class='flag-5'>方法</b>

    如何設計一個有限狀態(tài)轉換器的中文語音識別系統(tǒng)

    應用于該聲學模型訓練中,搭建出不依賴于隱馬爾可夫模型的中文語音識別系統(tǒng);同時設計了基于加權有限狀態(tài)轉換器( WFST)的語音解碼
    發(fā)表于 12-28 16:01 ?5次下載
    如何設計一個有限狀態(tài)轉換器的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>中文</b>語音<b class='flag-5'>識別</b>系統(tǒng)

    中山大學提出新型行人重識別方法和史上最大最新評測基準

    行人重識別,又稱行人再識別,是利用 CV 技術判斷圖像或視頻序列中是否存在特定行人的技術。常規(guī)的行人重識別方法往往需要高昂的人工標注成本,計算復雜度也很大。在本文中,中山大學研究者提出的
    的頭像 發(fā)表于 01-05 14:29 ?2546次閱讀
    中山大學提出<b class='flag-5'>新型</b>行人重<b class='flag-5'>識別方法</b>和史上最大最新評測基準

    基于神經網絡的中文文本蘊含識別模型

    基于神經網絡的文本蘊含識別模型通常僅從訓練數據中學習推理知識,導致模型泛化能力較弱。提出種融合外部語義知識的中文知識增強推理模型( CKEIM)。根據知網知識庫的特點提取詞語義知識特
    發(fā)表于 03-12 13:50 ?7次下載
    基于神經網絡的<b class='flag-5'>中文文本</b>蘊含<b class='flag-5'>識別</b>模型

    基于幀特征的說話人識別方法

    現有的說話人識別方法仍存在許多不足?;谠捳Z特征輸入的方法由于語音長短不一致需要將輸入處理為同等大小,而特征訓練加后驗分類的兩階段
    發(fā)表于 05-08 16:57 ?4次下載

    基于殘差連接的改進文本識別網絡結構

    針對已有文本識別網絡由于深度不夠而識別準確率較低的問題,文中提岀一種改進的
    發(fā)表于 05-17 15:18 ?6次下載

    基于BGRU的中文文本情感分析方法

    ( bidirectional gated recurrent unit)能記憶序列的上下文信息,并且結構較為簡單,訓練速度較快。提岀一種基于BGRU的中文文夲情
    發(fā)表于 06-15 11:28 ?10次下載

    語音識別技術:的挑戰(zhàn)與解決方案

    一、引言 隨著人工智能技術的不斷發(fā)展,語音識別技術得到了越來越廣泛的應用。語音識別技術是近年來備受關注的一種
    的頭像 發(fā)表于 10-18 17:06 ?1015次閱讀