深蘭科技摘得“圖表信息提取競(jìng)賽”總成績的冠軍
在日前結(jié)束的第25屆國際模式識(shí)別會(huì)議(ICPR2020)上,深蘭科技DeepBlueAI團(tuán)隊(duì)同臺(tái)競(jìng)技聯(lián)想、華南理工、合合等隊(duì)伍,摘得“圖表信息提取競(jìng)賽”總成績的冠軍。
該競(jìng)賽由6個(gè)賽道7個(gè)子任務(wù)組成,其中賽道6有兩個(gè)子任務(wù),每個(gè)子任務(wù)又分Adobe Synth、UB PMC兩個(gè)數(shù)據(jù)集。7個(gè)子任務(wù)按照數(shù)據(jù)集單獨(dú)計(jì)分,最終按照總分進(jìn)行排名。最終,DeepBlueAI團(tuán)隊(duì)拿下4個(gè)賽道冠軍,以總分35分拿到總成績第一名。
ICPR2020圖表信息提取
競(jìng)賽冠軍方案
該比賽各任務(wù)涵蓋圖表分類、案例分析、圖元素提取等,數(shù)據(jù)類別存在著分布極為不均衡的問題。
7個(gè)賽道分別為:賽道一,圖表分類;賽道二,檢測(cè)并識(shí)別圖表中的文字區(qū)域;賽道三,識(shí)別圖表圖像中文本功能/角色;賽道四,對(duì)坐標(biāo)軸上刻度點(diǎn)進(jìn)行檢測(cè)并與刻度標(biāo)簽文本框關(guān)聯(lián);賽道五,關(guān)聯(lián)圖例標(biāo)簽文本與圖例樣式元素;賽道六,第一個(gè)子任務(wù)對(duì)圖表元素進(jìn)行檢測(cè)與分類,第二個(gè)子任務(wù)提取用于生成圖表圖像的原始數(shù)據(jù)。
下面對(duì)比較有競(jìng)爭力的三、四、五、六賽道的解決方案進(jìn)行技術(shù)分享。
賽道三
賽道三以文本位置和文本內(nèi)容為輸入,識(shí)別圖表圖像中每個(gè)文本的角色,6個(gè)類別如圖所示。我們的方法包括兩個(gè)步驟:特征提取和分類器分類。使用文本屬性來定義特征向量,使用的分類器是Random Forest [1]和LightGBM [2]。
特征由文本框?qū)傩院臀谋緝?nèi)容組成,這些特征可分為三組。第一組包含框的長寬比、文本是否為數(shù)字、文本是否為多行、文本角度、文本長度和圖表類型。第二組包括文本框的三種相對(duì)位置信息,也就是相對(duì)于全局邊框、原點(diǎn)和圖例的位置。第三組包含水平/垂直對(duì)齊文本框的數(shù)量和對(duì)齊文本框的水平/垂直范圍,判斷框是否對(duì)齊時(shí),分別使用文本框的中心點(diǎn)、左上角和右下角。
使用隨機(jī)森林和LightGBM對(duì)文本角色進(jìn)行分類。隨機(jī)森林的一個(gè)優(yōu)點(diǎn)是在缺少特征的情況下仍然具有良好的性能,LightGBM具有訓(xùn)練效率高、精度高等優(yōu)點(diǎn)。在訓(xùn)練模型時(shí),每個(gè)類別的損失權(quán)重與輸入數(shù)據(jù)的頻率成反比。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?