酷播亮新聞
最棒的知識補給站

IJCAI 2018|阿里提出IncepText:全新多向場景文本檢測模塊

摘要:文本檢測在很多應用中扮演著重要的角色,但這也是一個頗具挑戰性的任務。 阿里近期提出的端到端場景文本檢測器
IncepText在多個數據集的測試中實現了業內最佳水平,並已發布了開放的OCR產品接口。 本研究

文本檢測在很多應用中扮演著重要的角色,但這也是一個頗具挑戰性的任務。 阿里近期提出的端到端場景文本檢測器
  IncepText 在多個數據集的測試中實現了業內最佳水平,並已發布了開放的 OCR 產品接口。 本研究的論文已被即將在 7 月於瑞典舉行的
IJCAI 2018 大會接收。

場景文本檢測是眾多計算機視覺應用中最具挑戰性的任務之一,它會應用在多語言翻譯、圖像檢索、自動駕駛等場景中。 其中,首當其衝的挑戰是場景文本會包含各種圖像,如街景、海報、菜單、室內場景等。 此外,場景文本在前景文本和背景對像中都有很大的變化,並且還具有不同的光照、模糊和方向條件。

在過去幾年裡,場景文本檢測方向湧現了很多傑出的算法。 文本檢測的關鍵在於設計正確區分文本區域和非文本區域的特徵。 多數傳統方法如
  MSER [Neumann and Matas,2010] 和 FASText [Busta et al.,2015]
都使用手動設計的文本特徵。

但這些方法不足以處理複雜的場景文本。 最近,基於卷積神經網絡(CNN)的方法在文本檢測和識別 l
領域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He
et al., 2017]。 基於 CNN 的模型具有強大的特徵表示能力,且更深的 CNN 模型能夠提取更高級別或更抽象的特徵。

在該領域,主要有兩種類型的場景文本檢測方法,即間接回歸和直接回歸。 間接回歸方法預測
  box proposals 的坐標,如 CTPN [Tian et al。 ,2016] 和 RRPN [Ma et al。 ,2017]
等研究。 這些方法都是基於 FasterRCNN [Ren et al.,2015] 框架。

近期,直接回歸方法在場景文本檢測上已經取得了不俗的表現,例如,East [Zhou et al,2017] 和 DDR [He et al,2017] 等研究。

在阿里的論文中,研究人員受到 FCIS 實例分割啟發試圖解決這個問題 [Li et al。 ,2016]。 與普通的物體檢測不同,場景文本經常會遇到很大的尺度,長寬比及方向的變化。 因此,我們設計了一個創新性的 Inception-Text 模塊來解決這些挑戰。

該模塊受 GoogLeNet 中的 Inception 模塊 [Szegedy et al,2015] 的啟發得出,研究人員採用多個不同卷積核的捲積分支來處理不同長寬比和比例的文本。 我們在每個分支後面接一個可變形的捲積層以適應多方向文本。

相比原型,另一個改進是我們用可變形的 PSROI 池化層來替換 FCIS 中的 PSROI 池化層 [Dai et al,2017a]。 根據實驗來看,可變形的 PSROI 池化層在分類任務中表現更好。

本研究的主要貢獻如下:

  • 我們提出了一個用於多方向場景文本檢測的新的 Inception-Text 模塊。 實驗表明,該模塊可以大幅提高準確率,且計算成本很低。

  • 我們提出使用可變形的 PSROI 池化模塊來處理多方向的文本。 在對可變形 PSROI 池化和量化評估學習到的偏移部分進行的量化研究表明,它可以有效處理任意方向的場景文本。

  • 我們在三個基準數據集ICDAR2015,RCTW-17 和MSRA-TD500 上評估了新方法,結果表明新的方法在沒有任何額外數據的情況下,在幾個基準測試中都取得了業內最優的表現 。

  • 我們提出的方法已在阿里公開發布的 OCR 產品中作為 API 服務實現。

在這篇論文中,我們會首先簡要介紹場景文本檢測,主要關注多方向場景文本檢測。 然後詳細講解新提出的方法,並在三個公共基準數據集上給出實驗結果。 最後進行總結,並討論未來的工作。

提出的方法

我們提出的方法基於最初被提出用於實例分割的 FCIS [Li et al,2016] 框架。 我們設計了一個創新的 Inception-Text 模塊,並使用可變形的 PSROI 池化層來擴展該框架。 圖 1 給出了我們提出的模型體系結構的概述。

在圖 1 中,基礎特徵提取模塊是 ResNet50 [He et al,2016a]。 精細的特徵信息對於分割任務尤為重要,對於場景文本檢測,第 5 階段的下採樣可能會丟失一些有用的信息。

因此,我們在第 5 階段利用帶孔卷積算法(hole algorithm)[Long et al,2015] 維持感受野。 這一階段的步長也由 2 改為 1,並且為了彌補步長減小帶來的問題,這一階段的所有捲積濾波器都使用帶孔卷積來補償減小的步幅。

為了預測小文本區域的準確位置,還需要考慮低級別特徵。 如圖 1 所示,res4f 層和 res5c 層上採樣 2 倍,再與 res3d 層相加。 這兩個融合的特徵圖後面接著用於場景文本檢測的 Inception-Text 模塊。

我們用可變形
  PSROI 池化來替換 FCIS 中的 PSROI 池化,因為標準 PSROI 池化只能處理水平文本,而場景文本方向總是不確定的。 類似於
FCIS,我們獲得瞭如圖 1 所示的帶有 mask 和分類分數的文本框,然後根據他們的分數將 NMS 應用到框中。

對於每個未被抑制的框,我們要找到它的相似框,即與其自身 IoU> = 0.5 的框。 未抑制的框預測的 mask 與其相似框通過使用分類分數作為它們的平均權重逐像素地進行加權平均來合併。 然後使用一個簡單的最小四邊形算法來生成方向框。

圖 1:IncepText 體系結構。 該圖中的基礎特徵提取模塊是 ResNet-50。 Inception-Text 模塊在特徵融合層後面,原始 PSROI 池化被替換為可變形的 PSROI 池化。

圖 2: Inception-Text 模塊。

圖 3:標準卷積和可變形卷積之間的比較。 標準卷積(a)中的感受野是固定的,而可變形卷積(b)的感受野是自適應的。

圖 8:我們的方法在 ICDAR2015(a)、RCTW-17(b)、MSRA-TD500(c)上的檢測結果。 (d)中列出了一些失敗案例。 紅色框是 ground-truth 實景框,而綠色框是預測結果。 黃色橢圓的邊界框表示錯誤結果。

表 2:ICDAR2015 附帶場景文本定位任務的結果。

論文:IncepText:
  A New Inception-Text Module with Deformable PSROI Pooling for
Multi-Oriented Scene Text Detection(IncepText:一種新的具有可變形 PSROI
池化的用於多向場景文本檢測的 Inception-Text 模塊)

論文鏈接:https://arxiv.org/abs/1805.01167

摘要: 附帶場景文本檢測,尤其是多向文本檢測,是眾多計算機視覺應用中最具挑戰性的任務之一。 與常見的物體檢測任務不同,場景文本的長寬比,尺度和方向常常會發生巨大變化。

為了解決這一問題,我們從實例分割的角度提出了一種創新性的端到端場景文本檢測器
  IncepText。 我們設計了一個新的 Inception-Text 模塊,並引入了可變形的 PSROI 池化來處理多向文本檢測。 基於
ICDAR2015,RCTW-17 和 MSRA-TD500 數據集的大量拓展實驗證明了我們方法的高效和可行性。

我們提出的方法在 ICDAR2015 比賽中獲得第一名,並在其他數據集上獲得最好的性能。 此外,我們還發布了公眾可訪問的 OCR 產品接口。

版權聲明

本文僅代表作者觀點,不代表百度立場。
本文係作者授權百度百家發表,未經許可,不得轉載。

如有侵權請來信告知:酷播亮新聞 » IJCAI 2018|阿里提出IncepText:全新多向場景文本檢測模塊