0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-08-07 14:24 ? 次閱讀

引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別。

華中科技大學白翔老師團隊在自然場景文本檢測與識別領域成果頗豐,這篇被ECCV2018接收的論文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出,最近,基于深度神經(jīng)網(wǎng)絡的模型已經(jīng)主導了場景文本檢測和識別領域。在該文中,研究了場景“text spotting”的問題,其旨在自然圖像中同時進行文本檢測和識別。

該文受到Mask R-CNN的啟發(fā)提出了一種用于場景text spotting的可端到端訓練的神經(jīng)網(wǎng)絡模型:Mask TextSpotter。與以前使用端到端可訓練深度神經(jīng)網(wǎng)絡完成text spotting的方法不同,Mask TextSpotter利用簡單且平滑的端到端學習過程,通過語義分割獲得精確的文本檢測和識別。此外,它在處理不規(guī)則形狀的文本實例(例如,彎曲文本)方面優(yōu)于之前的方法。

ICDAR2013、ICDAR2015和Total-Text數(shù)據(jù)庫上的實驗表明,所提出的方法在場景文本檢測和端到端文本識別任務中都達到了state-of-the-art的水平。

彎曲形狀文本檢測與識別的例子:

左圖是水平text spotting方法的結果,它的檢測框是水平的;中間圖是具有方向的text spotting方法的結果,它的檢測框傾斜;右圖是該文提出的Mask TextSpotter算法的結果,它的檢測框不是外接矩形而是一個最小外接多邊形,對這種彎曲文本達到了更精確的文本檢測和識別。

網(wǎng)絡架構

網(wǎng)絡架構由四部分組成,骨干網(wǎng)feature pyramid network (FPN),文本候選區(qū)域生成網(wǎng)絡region proposal network (RPN),文本包圍盒回歸網(wǎng)絡Fast R-CNN,文本實例分割與字符分割網(wǎng)絡mask branch。

▌訓練階段

RPN首先生成大量的文本候選區(qū)域,然后這些候選區(qū)域的RoI特征被送入Fast R-CNN branch和mask branch,由它們?nèi)シ謩e生成精確的文本候選包圍盒(text candidate boxes)、文本實例分割圖(text instance segmentation maps)、字符分割圖(character segmentation maps)。

尤其值得一提的是Mask Branch,如下圖:

它將輸入的RoI(固定大小16*64)經(jīng)過4層卷積層和1層反卷積層,生成38通道的圖(大小32*128),包括一個全局文本實例圖——它給出了文本區(qū)域的精確定位,無論文本排列的形狀如何它都能分割出來,還包括36個字符圖(對應于字符0~9,A~Z),一個字符背景圖(排除字符后的的所有背景區(qū)域),在后處理階段字符背景圖會被用到。

這是一個多任務模型,其Loss組成:

▌推理階段

推理階段mask branch的輸入RoIs來自于Fast R-CNN的輸出。

推理的過程如下:首先輸入一幅測試圖像,通過Fast R-CNN獲取候選文本區(qū)域,然后通過NMS(非極大抑制)過濾掉冗余的候選區(qū)域,剩下的候選區(qū)域resize后送入mask branch,得到全局文本實例圖,和字符圖。通過計算全局文本實例圖的輪廓可以直接得到包圍文本的多邊形,通過在字符圖上使用提出的pixel voting方法生成字符序列。

如上圖所示,Pixel voting方法根據(jù)字符背景圖中每一個聯(lián)通區(qū)域,計算每一字符層相應區(qū)域的平均字符概率,即得到了識別的結果。

為了在識別出來的字符序列中找到最佳匹配單詞,作者在編輯距離(Edit Distance)基礎上發(fā)明了加權編輯距離(Weighted Edit Distance)。

識別結果示例:

▌ICDAR2013的結果

該庫主要用來驗證在水平文本上的識別效果。

▌ICDAR2015的結果

用來驗證方向變化的文本的結果。

▌Total-Text結果

驗證彎曲的文本檢測識別結果。

彎曲文本識別示例

▌速度

在Titan Xp顯卡上,720*1280的圖像,速度可以達到6.9FPS。

▌效果分析

作者通過進一步的實驗分析,發(fā)現(xiàn):如果去除字符圖子網(wǎng)絡,只訓練檢測模型,檢測的性能會下降,說明檢測可以受益于識別模塊。下圖中Ours(det only)為只有檢測的模型。

如果去除訓練樣本中的真實世界字符標注圖像,模型依然可以達到相當競爭力的性能。下圖中Ours(a)即不使用真實世界字符標注圖像的訓練結果。

通過加權編輯距離(weighted edit distance)和原始編輯距離的比較,發(fā)現(xiàn),加權編輯距離可以明顯提高識別性能。下圖中Ours(b)為原始編輯距離的結果。

該文將Mask R-CNN語義分割的方法用于文本檢測與識別,取得了顯著的性能改進,并能成功應對任意形狀的文本,其他語義分割方法是否也能拿來試一下呢?(該文目前還沒有開源代碼。)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關注

    42

    文章

    4773

    瀏覽量

    100880
  • 文本
    +關注

    關注

    0

    文章

    118

    瀏覽量

    17092

原文標題:ECCV 2018 | 華科白翔老師團隊ECCV2018 OCR論文:Mask TextSpotter

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    手把手教你使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割(含源碼)

    使用LabVIEW實現(xiàn)Mask R-CNN圖像實例分割
    的頭像 發(fā)表于 03-21 13:39 ?2363次閱讀
    手把手教你使用LabVIEW實現(xiàn)<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>圖像實例<b class='flag-5'>分割</b>(含源碼)

    介紹目標檢測工具Faster R-CNN,包括它的構造及實現(xiàn)原理

    在本篇文章中,公司的研究人員介紹了他們在研究過程中所使用的先進目標檢測工具Faster R-CNN,包括它的構造及實現(xiàn)原理。
    的頭像 發(fā)表于 01-27 11:49 ?1.9w次閱讀
    介紹目標<b class='flag-5'>檢測</b>工具Faster <b class='flag-5'>R-CNN</b>,包括它的構造及實現(xiàn)原理

    Mask R-CNN:自動從視頻中制作目標物體的GIF動圖

    用深度學習模型——Mask R-CNN,自動從視頻中制作目標物體的GIF動圖。
    的頭像 發(fā)表于 02-03 14:19 ?1.1w次閱讀

    什么是Mask R-CNN?Mask R-CNN的工作原理

    它的概念很簡單:對于每個目標對象,F(xiàn)aster R-CNN都有兩個輸出,一是分類標簽,二是候選窗口;為了分割目標像素,我們可以在前兩個輸出的基礎上增加第三個輸出——指示對象在窗口中像素位置的二進制
    的頭像 發(fā)表于 07-20 08:53 ?6.8w次閱讀

    手把手教你操作Faster R-CNNMask R-CNN

    R-CNN又承繼于R-CNN,因此,為了能讓大家更好的理解基于CNN的目標檢測方法,我們從R-CNN開始切入,一直介紹到
    的頭像 發(fā)表于 04-04 16:32 ?1.3w次閱讀

    FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask

    然而,盡管目前性能最好的對象檢測器依賴于滑動窗口預測來生成初始候選區(qū)域,但獲得更準確的預測主要來自對這些候選區(qū)域進行細化的階段,如 Faster R-CNNMask
    的頭像 發(fā)表于 04-08 12:00 ?1.2w次閱讀

    Facebook AI使用單一神經(jīng)網(wǎng)絡架構來同時完成實例分割語義分割

    這一新架構“全景 FPN ”在 Facebook 2017 年發(fā)布的 Mask R-CNN 的基礎上添加了一個用于語義分割的分支。這一新架構可以同時對圖像
    的頭像 發(fā)表于 04-22 11:46 ?2898次閱讀
    Facebook AI使用單一神經(jīng)網(wǎng)絡架構來同時完成實例<b class='flag-5'>分割</b>和<b class='flag-5'>語義</b><b class='flag-5'>分割</b>

    基于改進Faster R-CNN的目標檢測方法

    為提高小尺度行人檢測的準確性,提出一種基于改進 Faster r-CNN的目標檢測方法。通過引入基于雙線性插值的對齊池化層,避免感興趣區(qū)域池
    發(fā)表于 03-23 14:52 ?3次下載
    基于改進Faster <b class='flag-5'>R-CNN</b>的目標<b class='flag-5'>檢測</b>方法

    一種基于Mask R-CNN的人臉檢測分割方法

    針對現(xiàn)有主流的人臉檢測算法不具備像素級分割,從而存在人臉特征具有噪聲及檢測精度不理想的問題提出了一種基于 Mask r-CNN的人臉
    發(fā)表于 04-01 10:42 ?5次下載
    一種基于<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>的人臉<b class='flag-5'>檢測</b>及<b class='flag-5'>分割</b>方法

    基于Mask R-CNN的遙感圖像處理技術綜述

    較為密集,且容易與港口混合。當前對艦船檢測的輸岀結果主要是檢測框,缺少對艦船掩碼的輸岀,使得無法全面分析岀模型存在的不足;冋時,由于遙感圖像中的艦船??棵芗?,容易產(chǎn)生漏檢問題。為解決上述問題,利用 Mask
    發(fā)表于 05-08 16:39 ?3次下載

    用于實例分割Mask R-CNN框架

    我們的方法稱為 Mask R-CNN,擴展了 Faster RCNN ,方法是在每個感興趣區(qū)域 (RoI) 上添加一個用于預測分割掩碼的分支,與用于分類和邊界框回歸的現(xiàn)有分支并行(圖 1)。掩碼分支
    的頭像 發(fā)表于 04-13 10:40 ?2671次閱讀

    3D視覺技術內(nèi)容理解領域的研究進展

    Mesh R-CNN 是一種新型的當前最優(yōu)方法,可基于大量 2D 現(xiàn)實世界圖像預測出最準確的 3D 形狀。該方法利用目標實例分割任務的通用 Mask
    的頭像 發(fā)表于 04-27 14:34 ?1495次閱讀

    PyTorch教程14.8之基于區(qū)域的CNN(R-CNN)

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程14.8之基于區(qū)域的CNN(R-CNN).pdf》資料免費下載
    發(fā)表于 06-05 11:09 ?0次下載
    PyTorch教程14.8之基于區(qū)域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)

    PyTorch教程-14.8?;趨^(qū)域的 CNN (R-CNN)

    Studio 實驗室在 SageMaker Studio Lab 中打開筆記本 除了第 14.7 節(jié)中描述的單次多框檢測之外,基于區(qū)域的 CNN 或具有 CNN 特征的區(qū)域 (R-CNN
    的頭像 發(fā)表于 06-05 15:44 ?668次閱讀
    PyTorch教程-14.8?;趨^(qū)域的 <b class='flag-5'>CNN</b> (<b class='flag-5'>R-CNN</b>)

    圖像分割語義分割中的CNN模型綜述

    圖像分割語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(CNN)作為深度學習的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?986次閱讀