AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代
工作人員齊整坐好,每個(gè)人都對(duì)著電腦全神貫注,一件又一件的“東西”在眼前劃過,經(jīng)過標(biāo)準(zhǔn)化處理就轉(zhuǎn)到下一流程……這實(shí)際上是人工智能行業(yè)里的數(shù)據(jù)標(biāo)注辦公區(qū)一角。
由于深度學(xué)習(xí)的研究方向,人力密集型的數(shù)據(jù)標(biāo)注工作是推進(jìn)人工智能技術(shù)落地的重要環(huán)節(jié)之一。
很長(zhǎng)一段時(shí)間以來,在過往AI的發(fā)展中數(shù)據(jù)的采集與標(biāo)注行業(yè)沒有過多地被關(guān)注,畢竟,與算法、算力這些高大上的東西相比,AI數(shù)據(jù)的生產(chǎn)總帶著那么幾分與AI技術(shù)的“科技感”截然不同的形象。
然而,隨著AI的發(fā)展走向縱深,更多人發(fā)現(xiàn)這是一個(gè)誤解,AI數(shù)據(jù)產(chǎn)業(yè)正在向著高專業(yè)化、高質(zhì)量化的方向蓬勃發(fā)展。
根據(jù)2018年智研發(fā)布的《2019-2025年中國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)市場(chǎng)專項(xiàng)分析研究及投資前景預(yù)測(cè)報(bào)告》,2018年該行業(yè)市場(chǎng)規(guī)模已達(dá)到52.55億元,2020年市場(chǎng)規(guī)模有望突破百億。有行業(yè)人士估計(jì)AI項(xiàng)目中會(huì)有10%的資金用于數(shù)據(jù)的采集和標(biāo)記,2020年,數(shù)據(jù)標(biāo)注行業(yè)最終市場(chǎng)規(guī)模將達(dá)到150億。
而分享市場(chǎng)的,既有BAT、京東等互聯(lián)網(wǎng)巨頭,也有云測(cè)數(shù)據(jù)這種專注于高質(zhì)量交付的專業(yè)化數(shù)據(jù)平臺(tái)。
龐大的前景下,數(shù)據(jù)采集與標(biāo)注也可以分NLP(自然語音處理)、CV(計(jì)算機(jī)視覺)等幾個(gè)部分,隨著數(shù)據(jù)需求量的增大、對(duì)數(shù)據(jù)質(zhì)量要求的提高,其中的NLP越來越成為“硬骨頭”,AI數(shù)據(jù)產(chǎn)業(yè)終將面臨它帶來的難題,也承襲這種難題下空出的市場(chǎng)空間。
AI的數(shù)據(jù)、算法和算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時(shí)代
芯片制程以及大規(guī)模并聯(lián)計(jì)算技術(shù)的發(fā)展,使得算力快速提升后,AI能力的提升主要集中到了算法和數(shù)據(jù)上(算力提升當(dāng)然還有價(jià)值,只是相對(duì)價(jià)值那么明顯了,例如不可能對(duì)一個(gè)物聯(lián)網(wǎng)終端設(shè)備有太多的算力設(shè)定要求)。
這方面,多年以來,人工智能技術(shù)都呈現(xiàn)“輪流坐莊”的螺旋提升關(guān)系:
算法突破后,可容納的數(shù)據(jù)計(jì)算量往往變得很大,所以會(huì)迎來一波數(shù)據(jù)需求的高潮;而當(dāng)AI數(shù)據(jù)通過某些方式達(dá)到一個(gè)新的程度時(shí),原來的算法又“不夠了”,需要提升。
2018年11月,Google AI團(tuán)隊(duì)推出劃時(shí)代的BERT模型,在NLP業(yè)內(nèi)引起巨大反響,認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步,地位類似于更早期出現(xiàn)的Resnet相對(duì)于CV的價(jià)值。
以BERT為主的算法體系開始在AI領(lǐng)域大放異彩,從那時(shí)起,數(shù)據(jù)的重要性排在了NLP的首位。
加上兩個(gè)方面的因素,這等于把NLP數(shù)據(jù)采集與標(biāo)注推到了更有挑戰(zhàn)的位置上。
一個(gè)因素,是NLP本身相對(duì)CV在AI數(shù)據(jù)方面的要求就更復(fù)雜。
CV是“感知型”AI,在數(shù)據(jù)方面有Ground Truth(近似理解為標(biāo)準(zhǔn)答案),例如在一個(gè)圖片中,車、人、車道線等是什么就是什么,在采集和標(biāo)注時(shí)很難出現(xiàn)“感知錯(cuò)誤”(圖片來源:云測(cè)數(shù)據(jù))
而NLP是“認(rèn)知”型AI,依賴人的理解不同產(chǎn)生不同的意義,表達(dá)出各種需要揣測(cè)的意圖,Ground Truth是主觀的。
例如,“這房間就是個(gè)烤箱”可能是說房間的布局不好,但更有可能說的是里邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點(diǎn),應(yīng)用于AI時(shí),需要被多方位、深度探索。
另一個(gè)因素,是AI數(shù)據(jù)的價(jià)值整體上由“飼料”到“奶粉”,對(duì)NLP而言這更有挑戰(zhàn)。
大部分算法在擁有足夠多常規(guī)標(biāo)注數(shù)據(jù)的情況下,能夠?qū)⒆R(shí)別準(zhǔn)確率提升到95%,而商業(yè)化落地的需求現(xiàn)在顯然不止于此,精細(xì)化、場(chǎng)景化、高質(zhì)量的數(shù)據(jù)成為關(guān)鍵點(diǎn),從95% 再提升到99% 甚至99.9%需要大量高質(zhì)量的標(biāo)注數(shù)據(jù),它們成為制約模型和算法突破瓶頸的關(guān)鍵指標(biāo)。
但是,正如云測(cè)數(shù)據(jù)總經(jīng)理賈宇航所言,“圖像采標(biāo)有很強(qiáng)的規(guī)則性,按照規(guī)范化的指導(dǎo)文檔工作即可,但NLP數(shù)據(jù)對(duì)應(yīng)的是語言的豐富性,需要結(jié)合上下文等背景去理解和處理!痹诟呶惶嵘@件事上,NLP數(shù)據(jù)更難。
例如,在訂機(jī)票這個(gè)看似簡(jiǎn)單的AI對(duì)話場(chǎng)景中,想訂票的人會(huì)有多種表達(dá),“有去上海的航班么”,“要出差,幫我查下機(jī)票”,“查下航班,下周二出發(fā)去上!薄匀徽Z言有無窮多的組合表現(xiàn)出這個(gè)意圖,AI要“認(rèn)得”它們,就需要大量高質(zhì)量的數(shù)據(jù)的訓(xùn)練。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?