什么是NLP?NLP的兩個(gè)核心任務(wù)是什么?
如上圖所示,左邊的圖是直接使用Faster RCNN中的RPN來(lái)進(jìn)行候選框提取,可以看出,這種候選框太粗糙了,效果并不好。而右圖是使用CTPN+RNN進(jìn)行候選框提取,利用許多小候選框來(lái)合并成一個(gè)大文本預(yù)測(cè)框,可以看出這個(gè)算法的效果非常不錯(cuò)。
當(dāng)然,CTPN也有一個(gè)很明顯的缺點(diǎn):對(duì)于非水平的文本的檢測(cè)效果并不好。
3、SegLink
SegLink(CTPN+SSD):通常用于自然場(chǎng)景下,檢測(cè)多角度文本。
【文獻(xiàn)】Detecting Oriented Text in Natural Images by Linking Segments
上圖的綠色框的檢測(cè)效果才是我們的終極目標(biāo)。那么怎么基于原來(lái)經(jīng)典的目標(biāo)檢測(cè)算法做相應(yīng)的優(yōu)化以適應(yīng)這種檢測(cè)效果的要求呢?
SegLink采取了一個(gè)思路那就是:讓模型再學(xué)習(xí)一個(gè)參數(shù)θ,這個(gè)θ表示文本框的旋轉(zhuǎn)角度,也就是我們最終要回歸的參數(shù)從原來(lái)的(x,y,w,h)變成(x,y,w,h,θ)。除此之外,SegLink還提出了Segment和Linking兩個(gè)重要概念。
Segment可理解為文本行的任意一部分,一個(gè)完整的文本行中包含多個(gè)segment(上圖黃色框)。每個(gè)segment用link(上圖綠色線(xiàn))連接組合起來(lái)。
4、EAST
EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS階段完成檢測(cè)。網(wǎng)絡(luò)的簡(jiǎn)潔使得檢測(cè)準(zhǔn)確率和速度都有進(jìn)一步提升。(針對(duì)自然場(chǎng)景下使用較多)。
【文獻(xiàn)】EAST: An Efficient and Accurate Scene Text Detector
通過(guò)上圖我們知道,一個(gè)文本檢測(cè)有多個(gè)階段,EAST的作者認(rèn)為,一個(gè)文本檢測(cè)算法被拆分成多個(gè)階段其實(shí)并沒(méi)有太多好處,實(shí)現(xiàn)真正端到端的文本檢測(cè)網(wǎng)絡(luò)才是正確之舉。所以EAST的pipeline相當(dāng)優(yōu)雅,只分為FCN生成文本行參數(shù)階段和局部感知NMS階段,網(wǎng)絡(luò)的簡(jiǎn)潔是的檢測(cè)的準(zhǔn)確性和速度都有了進(jìn)一步的提高。
EAST網(wǎng)絡(luò)分為特征提取層+特征融合層+輸出層三大部分。EAST就是借助FCN架構(gòu)直接回歸出文本行的(x,y,w,h,θ)+置信度+四邊形的四個(gè)坐標(biāo)!非常簡(jiǎn)潔!當(dāng)然還有其他檢測(cè)算法,這里就不一一介紹啦。
學(xué)習(xí)鏈接:
https://www.cnblogs.com/skyfsm/p/9776611.html
04
自然場(chǎng)景文本識(shí)別
1、CNN+RNN+CTC(如CRNN):使用目前最為廣泛的一種文本識(shí)別框架。需要自己構(gòu)建字詞庫(kù)(包含常用字、各類(lèi)字符等)。
【文獻(xiàn)】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
【講解及優(yōu)化】
https://blog.csdn.net/qq_14845119/article/details/78934334
【開(kāi)源代碼】
https://github.com/solivr/tf-crnn
學(xué)習(xí)鏈接:
https://www.jianshu.com/p/5b4791189583
2、CNN(如Densenet)+CTC:資料不多,效果一般,泛化能力較差。沒(méi)有加入了RNN的效果好。
【文獻(xiàn)】暫未找到,可參考GitHub
3、Tesserocr(Tesseract):使用比較廣泛的一種開(kāi)源識(shí)別框架,支持多語(yǔ)言多平臺(tái)。Tesseract在識(shí)別清晰的標(biāo)準(zhǔn)中文字體效果還行,稍微復(fù)雜的情況就很糟糕(多字體等),而且花費(fèi)的時(shí)間也很多。
【文獻(xiàn)】暫未找到,可參考GitHub
4、FOTS(EAST+CRNN):端到端OCR模型,檢測(cè)和識(shí)別任務(wù)共享卷積特征層,既節(jié)省了計(jì)算時(shí)間,也比兩階段訓(xùn)練方式學(xué)習(xí)到更多圖像特征。引入了旋轉(zhuǎn)感興趣區(qū)域(RoIRotate), 可以從卷積特征圖中產(chǎn)生出定向的文本區(qū)域,從而支持傾斜文本的識(shí)別。
【文獻(xiàn)】
FOTS: Fast Oriented Text Spotting with a Unified Network
【講解】
https://blog.csdn.net/qq_14845119/article/details/84635847
5、ASTER:模型主要分為兩個(gè)部分,一個(gè)是矯正模型,一個(gè)是識(shí)別模型。文本矯正模型,不需要任何矯正標(biāo)注信息,對(duì)彎曲文本、透視文本有著很好的矯正效果。識(shí)別模型中的CNN使用了ResNet的結(jié)構(gòu),最后的解碼部分使用的是Sequence2Sequence機(jī)制來(lái)進(jìn)行解碼,不同于CRNN的CTCLoss。
【文獻(xiàn)】
ASTER: An Attentional Scene Text Recognizer with Flexible Rectification
在NLP的產(chǎn)品體系中,OCR是關(guān)于文檔、文件處理的基礎(chǔ)步驟,是無(wú)法回避和繞開(kāi)的。
關(guān)于OCR的基礎(chǔ)知識(shí),也就成了NLP產(chǎn)品經(jīng)理必不可少的知識(shí)儲(chǔ)備了——只有詳細(xì)地了解了關(guān)于OCR的處理原理和步驟,才能充分發(fā)揮現(xiàn)有技術(shù)的優(yōu)勢(shì),規(guī)避其弱點(diǎn),創(chuàng)造出更大的價(jià)值。
聲明
歡迎轉(zhuǎn)發(fā)本號(hào)原創(chuàng)內(nèi)容,任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專(zhuān)題
- 1 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 2 人形機(jī)器人,正狂奔在批量交付的曠野
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 解碼特斯拉新AI芯片戰(zhàn)略 :從Dojo到AI5和AI6推理引擎
- 5 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 6 2025年8月人工智能投融資觀(guān)察
- 7 8 a16z最新AI百?gòu)?qiáng)榜:硅谷頂級(jí)VC帶你讀懂全球生成式AI賽道最新趨勢(shì)
- 9 Manus跑路,大廠(chǎng)掉線(xiàn),只能靠DeepSeek了
- 10 地平線(xiàn)的野心:1000萬(wàn)套HSD上車(chē)