訂閱
糾錯
加入自媒體

AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代

由此,我們再來理解商業(yè)機(jī)會。

數(shù)據(jù)采集與標(biāo)注的公司有很多,從巨頭的“副業(yè)”到AI數(shù)據(jù)專業(yè)化平臺,總體而言主要玩家如圖所示:

AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代

除此之外,更多中小玩家甚至幾十人的草臺班子數(shù)不勝數(shù)。在中國,目前全國從事數(shù)據(jù)標(biāo)注業(yè)務(wù)的公司約有幾百家,全職的數(shù)據(jù)標(biāo)注從業(yè)者有約20萬人,兼職數(shù)據(jù)標(biāo)注從業(yè)者有約100萬人。

易入門、難精通,而上述兩大因素決定NLP數(shù)據(jù)面臨巨大的挑戰(zhàn),做得好的就更少。

在數(shù)據(jù)“坐莊”NLP的大背景下,空出了大量的商業(yè)機(jī)會,而客觀上的高要求阻卻了大量低門檻入場的玩家,NLP數(shù)據(jù)相對于CV更像一個藍(lán)海。

打破單純“體力活”標(biāo)簽,NLP數(shù)據(jù)采集與標(biāo)注從四個方面自我演進(jìn)

有機(jī)會就總有人會進(jìn)場,不久前,中國人工智能高峰論發(fā)布了中國人工智能科技服務(wù)商50強(qiáng),既有商湯、曠視這種明星企業(yè),也出現(xiàn)了榜單內(nèi)唯一的AI數(shù)據(jù)服務(wù)商云測數(shù)據(jù),這顯示AI數(shù)據(jù)正在進(jìn)入“主流圈”,在藍(lán)海中嘗試跑出獨(dú)角獸企業(yè)。

當(dāng)然,前提是平臺能夠解決好NLP數(shù)據(jù)的痛點(diǎn)問題。

事實上,CV的“感知”需求使得“體力活”可能就能夠勝任大多數(shù)據(jù)生產(chǎn)工作(誰不認(rèn)識一輛車、一個人呢),而“認(rèn)知”的NLP數(shù)據(jù)要突圍,只是“體力活”早已經(jīng)不夠。

至少目前來看,行業(yè)玩家在四個方面有所動作,或正在解決NLP數(shù)據(jù)痛點(diǎn)問題。

1、業(yè)務(wù)模式,用“定制化”迎合商業(yè)落地期的NLP

曾有媒體向Google工程師提起M-Turk的時候,他表示“我們不敢用Turk標(biāo)注”,因為回收的數(shù)據(jù)良莠不齊。

眾包模式(在公開平臺發(fā)布任務(wù),自由申領(lǐng))是曾經(jīng)的AI數(shù)據(jù)產(chǎn)業(yè)主流,擁有數(shù)據(jù)豐富性和多樣性的優(yōu)勢,不過數(shù)據(jù)質(zhì)量比較難以把控。在數(shù)據(jù)精細(xì)化要求的今天,很多需求方都轉(zhuǎn)向了“定制化”(一對一,以項目制的方式完成交辦的數(shù)據(jù)任務(wù))服務(wù)模式。

例如,云測數(shù)據(jù)的“定制化”服務(wù)模式,跟的就是需求方復(fù)雜、精深而個性化的數(shù)據(jù)要求。具體到NLP,在數(shù)據(jù)采集上滿足特定人物(老人、婦女、小孩)、特定場景(家居、辦公、商業(yè)等)、不同方言的聲音/文本數(shù)據(jù)采集;在數(shù)據(jù)標(biāo)注上進(jìn)行需求的對接、理解清楚場景化要求再分發(fā)盡量具體的規(guī)范指導(dǎo)(同樣一句話在不同交流目的中可能需要標(biāo)注不同的內(nèi)容,例如“我沒錢”在信貸服務(wù)中意味著潛在客戶,在理財服務(wù)中則表達(dá)拒絕的態(tài)度)。

當(dāng)然,眾包模式也有它的優(yōu)點(diǎn),能夠輕量化承載大量相對簡單的數(shù)據(jù)需求,而場景化的定制模式則更專業(yè),主要依靠自有員工和基地,像云測數(shù)據(jù)就在華東、華南、華北擁有自建標(biāo)注基地,這種玩法顯然更適合匹配客單價更高的場景化、定制化需求,NLP是典型。

2、管理流程,從“粗放制造”到“精益制造”

既然數(shù)據(jù)采集與標(biāo)注很像是工廠的流水線,那么如果要提升數(shù)據(jù)的精準(zhǔn)度,其實就如同“制造業(yè)”升級那樣需要進(jìn)行“粗放制造”到“精益制造”的轉(zhuǎn)變,首要體現(xiàn)在管理流程的優(yōu)化上。

無論是從平臺接取任務(wù)的眾包團(tuán)隊,還是直接對接需求方的定制化服務(wù)平臺,至少,草臺班子式的做法已經(jīng)不適合NLP對數(shù)據(jù)的要求。

高精準(zhǔn)度、高效率,都依賴管理流程的優(yōu)化,以云測數(shù)據(jù)為例,具體做法包括這幾個大方向:

標(biāo)注、審核、抽檢的層層把關(guān):標(biāo)注人員的結(jié)果交由另一批人進(jìn)行審核,打回不合格的,最終再由質(zhì)檢進(jìn)行抽檢,大體如此,可能步驟更復(fù)雜;

人才類型的基礎(chǔ)分類:文本、語音、圖像標(biāo)注人員不相互混用;

擅長場景的優(yōu)先任務(wù)派發(fā):在同等條件下,擅長對應(yīng)場景的人優(yōu)先派發(fā)給任務(wù)。

例會制度:如同精細(xì)化管理的制造業(yè)一樣,早會、晚會、周會、月會,總結(jié)問題、提醒改進(jìn)。

……

而無論如何,管理流程的事,說得再多,日常工作的落實才是最重要的。

3、職業(yè)技能,專業(yè)培訓(xùn)擺脫“低水平重復(fù)”

“不要門檻”意味著更低的價值,在人員個人能力上,NLP在逐漸拋棄那些“無門檻”入局的人,尤其是在特定的場景需求下。

例如,這是一個非常簡單的NLP數(shù)據(jù)標(biāo)注實例:

AI的數(shù)據(jù)、算法、算力“輪流坐莊”,NLP到了“數(shù)據(jù)為王”的時代

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號