訂閱
糾錯
加入自媒體

什么是NLP?NLP的兩個核心任務是什么?


如上圖所示,左邊的圖是直接使用Faster RCNN中的RPN來進行候選框提取,可以看出,這種候選框太粗糙了,效果并不好。而右圖是使用CTPN+RNN進行候選框提取,利用許多小候選框來合并成一個大文本預測框,可以看出這個算法的效果非常不錯。

當然,CTPN也有一個很明顯的缺點:對于非水平的文本的檢測效果并不好。

3、SegLink

SegLink(CTPN+SSD):通常用于自然場景下,檢測多角度文本。

【文獻】Detecting Oriented Text in Natural Images by Linking Segments

上圖的綠色框的檢測效果才是我們的終極目標。那么怎么基于原來經典的目標檢測算法做相應的優(yōu)化以適應這種檢測效果的要求呢?

SegLink采取了一個思路那就是:讓模型再學習一個參數θ,這個θ表示文本框的旋轉角度,也就是我們最終要回歸的參數從原來的(x,y,w,h)變成(x,y,w,h,θ)。除此之外,SegLink還提出了Segment和Linking兩個重要概念。

Segment可理解為文本行的任意一部分,一個完整的文本行中包含多個segment(上圖黃色框)。每個segment用link(上圖綠色線)連接組合起來。

4、EAST

EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS階段完成檢測。網絡的簡潔使得檢測準確率和速度都有進一步提升。(針對自然場景下使用較多)。

【文獻】EAST: An Efficient and Accurate Scene Text Detector

通過上圖我們知道,一個文本檢測有多個階段,EAST的作者認為,一個文本檢測算法被拆分成多個階段其實并沒有太多好處,實現真正端到端的文本檢測網絡才是正確之舉。所以EAST的pipeline相當優(yōu)雅,只分為FCN生成文本行參數階段和局部感知NMS階段,網絡的簡潔是的檢測的準確性和速度都有了進一步的提高。

EAST網絡分為特征提取層+特征融合層+輸出層三大部分。EAST就是借助FCN架構直接回歸出文本行的(x,y,w,h,θ)+置信度+四邊形的四個坐標!非常簡潔!當然還有其他檢測算法,這里就不一一介紹啦。

學習鏈接:

https://www.cnblogs.com/skyfsm/p/9776611.html

04

自然場景文本識別

1、CNN+RNN+CTC(如CRNN):使用目前最為廣泛的一種文本識別框架。需要自己構建字詞庫(包含常用字、各類字符等)。

【文獻】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

【講解及優(yōu)化】

https://blog.csdn.net/qq_14845119/article/details/78934334

【開源代碼】

https://github.com/solivr/tf-crnn

學習鏈接:

https://www.jianshu.com/p/5b4791189583

2、CNN(如Densenet)+CTC:資料不多,效果一般,泛化能力較差。沒有加入了RNN的效果好。

【文獻】暫未找到,可參考GitHub

3、Tesserocr(Tesseract):使用比較廣泛的一種開源識別框架,支持多語言多平臺。Tesseract在識別清晰的標準中文字體效果還行,稍微復雜的情況就很糟糕(多字體等),而且花費的時間也很多。

【文獻】暫未找到,可參考GitHub

4、FOTS(EAST+CRNN):端到端OCR模型,檢測和識別任務共享卷積特征層,既節(jié)省了計算時間,也比兩階段訓練方式學習到更多圖像特征。引入了旋轉感興趣區(qū)域(RoIRotate), 可以從卷積特征圖中產生出定向的文本區(qū)域,從而支持傾斜文本的識別。

【文獻】

FOTS: Fast Oriented Text Spotting with a Unified Network

【講解】

https://blog.csdn.net/qq_14845119/article/details/84635847

5、ASTER:模型主要分為兩個部分,一個是矯正模型,一個是識別模型。文本矯正模型,不需要任何矯正標注信息,對彎曲文本、透視文本有著很好的矯正效果。識別模型中的CNN使用了ResNet的結構,最后的解碼部分使用的是Sequence2Sequence機制來進行解碼,不同于CRNN的CTCLoss。

【文獻】

ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

在NLP的產品體系中,OCR是關于文檔、文件處理的基礎步驟,是無法回避和繞開的。

關于OCR的基礎知識,也就成了NLP產品經理必不可少的知識儲備了——只有詳細地了解了關于OCR的處理原理和步驟,才能充分發(fā)揮現有技術的優(yōu)勢,規(guī)避其弱點,創(chuàng)造出更大的價值。

聲明

歡迎轉發(fā)本號原創(chuàng)內容,任何形式的媒體或機構未經授權,不得轉載和摘編。

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號