亚洲大成色www永久网站国产,丁香五月天之婷婷综合缴情,特黄大黄一级毛片亚洲

AI的數(shù)據(jù)、算法、算力“輪流坐莊”，NLP到了“數(shù)據(jù)為王”的時(shí)代

2020-05-09 08:33

工作人員齊整坐好，每個(gè)人都對(duì)著電腦全神貫注，一件又一件的“東西”在眼前劃過(guò)，經(jīng)過(guò)標(biāo)準(zhǔn)化處理就轉(zhuǎn)到下一流程……這實(shí)際上是人工智能行業(yè)里的數(shù)據(jù)標(biāo)注辦公區(qū)一角。

由于深度學(xué)習(xí)的研究方向，人力密集型的數(shù)據(jù)標(biāo)注工作是推進(jìn)人工智能技術(shù)落地的重要環(huán)節(jié)之一。

很長(zhǎng)一段時(shí)間以來(lái)，在過(guò)往AI的發(fā)展中數(shù)據(jù)的采集與標(biāo)注行業(yè)沒(méi)有過(guò)多地被關(guān)注，畢竟，與算法、算力這些高大上的東西相比，AI數(shù)據(jù)的生產(chǎn)總帶著那么幾分與AI技術(shù)的“科技感”截然不同的形象。

然而，隨著AI的發(fā)展走向縱深，更多人發(fā)現(xiàn)這是一個(gè)誤解，AI數(shù)據(jù)產(chǎn)業(yè)正在向著高專(zhuān)業(yè)化、高質(zhì)量化的方向蓬勃發(fā)展。

根據(jù)2018年智研發(fā)布的《2019－2025年中國(guó)數(shù)據(jù)標(biāo)注與審核行業(yè)市場(chǎng)專(zhuān)項(xiàng)分析研究及投資前景預(yù)測(cè)報(bào)告》，2018年該行業(yè)市場(chǎng)規(guī)模已達(dá)到52．55億元，2020年市場(chǎng)規(guī)模有望突破百億。有行業(yè)人士估計(jì)AI項(xiàng)目中會(huì)有10％的資金用于數(shù)據(jù)的采集和標(biāo)記，2020年，數(shù)據(jù)標(biāo)注行業(yè)最終市場(chǎng)規(guī)模將達(dá)到150億。

而分享市場(chǎng)的，既有BAT、京東等互聯(lián)網(wǎng)巨頭，也有云測(cè)數(shù)據(jù)這種專(zhuān)注于高質(zhì)量交付的專(zhuān)業(yè)化數(shù)據(jù)平臺(tái)。

龐大的前景下，數(shù)據(jù)采集與標(biāo)注也可以分NLP（自然語(yǔ)音處理）、CV（計(jì)算機(jī)視覺(jué)）等幾個(gè)部分，隨著數(shù)據(jù)需求量的增大、對(duì)數(shù)據(jù)質(zhì)量要求的提高，其中的NLP越來(lái)越成為“硬骨頭”，AI數(shù)據(jù)產(chǎn)業(yè)終將面臨它帶來(lái)的難題，也承襲這種難題下空出的市場(chǎng)空間。

AI的數(shù)據(jù)、算法和算力“輪流坐莊”，NLP到了“數(shù)據(jù)為王”的時(shí)代

芯片制程以及大規(guī)模并聯(lián)計(jì)算技術(shù)的發(fā)展，使得算力快速提升后，AI能力的提升主要集中到了算法和數(shù)據(jù)上（算力提升當(dāng)然還有價(jià)值，只是相對(duì)價(jià)值那么明顯了，例如不可能對(duì)一個(gè)物聯(lián)網(wǎng)終端設(shè)備有太多的算力設(shè)定要求）。

這方面，多年以來(lái)，人工智能技術(shù)都呈現(xiàn)“輪流坐莊”的螺旋提升關(guān)系：

算法突破后，可容納的數(shù)據(jù)計(jì)算量往往變得很大，所以會(huì)迎來(lái)一波數(shù)據(jù)需求的高潮；而當(dāng)AI數(shù)據(jù)通過(guò)某些方式達(dá)到一個(gè)新的程度時(shí)，原來(lái)的算法又“不夠了”，需要提升。

2018年11月，Google AI團(tuán)隊(duì)推出劃時(shí)代的BERT模型，在NLP業(yè)內(nèi)引起巨大反響，認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步，地位類(lèi)似于更早期出現(xiàn)的Resnet相對(duì)于CV的價(jià)值。

以BERT為主的算法體系開(kāi)始在AI領(lǐng)域大放異彩，從那時(shí)起，數(shù)據(jù)的重要性排在了NLP的首位。

加上兩個(gè)方面的因素，這等于把NLP數(shù)據(jù)采集與標(biāo)注推到了更有挑戰(zhàn)的位置上。

一個(gè)因素，是NLP本身相對(duì)CV在AI數(shù)據(jù)方面的要求就更復(fù)雜。

CV是“感知型”AI，在數(shù)據(jù)方面有Ground Truth（近似理解為標(biāo)準(zhǔn)答案），例如在一個(gè)圖片中，車(chē)、人、車(chē)道線(xiàn)等是什么就是什么，在采集和標(biāo)注時(shí)很難出現(xiàn)“感知錯(cuò)誤”（圖片來(lái)源：云測(cè)數(shù)據(jù)）

AI的數(shù)據(jù)、算法、算力“輪流坐莊”，NLP到了“數(shù)據(jù)為王”的時(shí)代

而NLP是“認(rèn)知”型AI，依賴(lài)人的理解不同產(chǎn)生不同的意義，表達(dá)出各種需要揣測(cè)的意圖，Ground Truth是主觀的。

例如，“這房間就是個(gè)烤箱”可能是說(shuō)房間的布局不好，但更有可能說(shuō)的是里邊太熱。人類(lèi)語(yǔ)言更富魅力的“言有盡而意無(wú)窮”的特點(diǎn)，應(yīng)用于AI時(shí)，需要被多方位、深度探索。

另一個(gè)因素，是AI數(shù)據(jù)的價(jià)值整體上由“飼料”到“奶粉”，對(duì)NLP而言這更有挑戰(zhàn)。

大部分算法在擁有足夠多常規(guī)標(biāo)注數(shù)據(jù)的情況下，能夠?qū)⒆R(shí)別準(zhǔn)確率提升到95％，而商業(yè)化落地的需求現(xiàn)在顯然不止于此，精細(xì)化、場(chǎng)景化、高質(zhì)量的數(shù)據(jù)成為關(guān)鍵點(diǎn)，從95％再提升到99％甚至99．9％需要大量高質(zhì)量的標(biāo)注數(shù)據(jù)，它們成為制約模型和算法突破瓶頸的關(guān)鍵指標(biāo)。

但是，正如云測(cè)數(shù)據(jù)總經(jīng)理賈宇航所言，“圖像采標(biāo)有很強(qiáng)的規(guī)則性，按照規(guī)范化的指導(dǎo)文檔工作即可，但NLP數(shù)據(jù)對(duì)應(yīng)的是語(yǔ)言的豐富性，需要結(jié)合上下文等背景去理解和處理。”在高位提升這件事上，NLP數(shù)據(jù)更難。

例如，在訂機(jī)票這個(gè)看似簡(jiǎn)單的AI對(duì)話(huà)場(chǎng)景中，想訂票的人會(huì)有多種表達(dá)，“有去上海的航班么”，“要出差，幫我查下機(jī)票”，“查下航班，下周二出發(fā)去上�！薄匀徽Z(yǔ)言有無(wú)窮多的組合表現(xiàn)出這個(gè)意圖，AI要“認(rèn)得”它們，就需要大量高質(zhì)量的數(shù)據(jù)的訓(xùn)練。

1 2 3 下一頁(yè)>