AI時(shí)代工具應(yīng)用如何轉(zhuǎn)型,或許百度輸入法AI探索版給出了答案
2003年5月,《哈佛商業(yè)評(píng)論》上刊載了尼古拉斯·卡爾那篇題為《IT Doesn’t Matter》(IT不再重要)的文章。
這本文章與其說是《IT不再重要》,不如說是《互聯(lián)網(wǎng)不再重要》,因?yàn)槠鋵?shí)尼古拉斯·卡爾在這本書中表達(dá)的主題,人工智能、云計(jì)算、大數(shù)據(jù)將會(huì)改變我們的時(shí)代。
這個(gè)標(biāo)題拿來形容當(dāng)下的中國(guó)互聯(lián)網(wǎng)可能有很大相通之處。移動(dòng)時(shí)代正在整體向AI時(shí)代過渡。移動(dòng)時(shí)代的產(chǎn)品都要紛紛迎接新格局,語(yǔ)音也是如此。
在2018年10月的中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)上,語(yǔ)音識(shí)別科學(xué)家黃學(xué)東博士提到,“語(yǔ)音和語(yǔ)言之進(jìn)化對(duì)人工智能的重要意義毫不亞于語(yǔ)音和語(yǔ)言對(duì)人類進(jìn)化的決定性作用”。百度輸入法在1月15日發(fā)布會(huì)展示的新技術(shù)同樣呈現(xiàn)了這個(gè)趨勢(shì)。
可以說,百度輸入法正是目前的業(yè)內(nèi)標(biāo)桿。這也是第一家真正思考AI時(shí)代人機(jī)交互的輸入法產(chǎn)品。
智能語(yǔ)音的進(jìn)化甚至正在把人機(jī)交互帶入新的階段。不僅僅有問有答、包含上下語(yǔ)義邏輯,人工智能硬件能夠更多地融合各種環(huán)境信息,作出不同決策或推薦。
百度系產(chǎn)品在過去幾年的進(jìn)化過程中,逐漸展現(xiàn)出了新的人機(jī)交互邏輯。
一、交互的進(jìn)化
工具型產(chǎn)品在不同時(shí)代、不同需求、不同場(chǎng)景往往面臨著轉(zhuǎn)型考驗(yàn)。搜索、輸入法這些從PC時(shí)代走到移動(dòng)時(shí)代的產(chǎn)品,到了AI時(shí)代再一次發(fā)生進(jìn)化。
搜索這樣的產(chǎn)品就在從過去的搜索引擎,變成“搜索+信息流”的雙引擎產(chǎn)品。像百度APP就在融入AI,把過去搜索引擎時(shí)代的人找信息,變成信息、服務(wù)找人。既能讓用戶找到信息,也能讓信息找到用戶,重構(gòu)了新型信息服務(wù)體驗(yàn)。
輸入法同樣如此。輸入法本質(zhì)上是人類和機(jī)器的交互方式。我們真正去追根溯源就會(huì)發(fā)現(xiàn),PC時(shí)代,輸入法要通過鍵鼠讓我們和機(jī)器交互。隨著移動(dòng)時(shí)代的來臨,觸摸屏又取代鍵鼠,成了輸入法新的承載。
細(xì)細(xì)數(shù)來,鍵鼠這種交互方式存在至今不過百年,而觸摸屏這種交互方式嚴(yán)格算來也僅僅只有不到20年。實(shí)際上,語(yǔ)音本來就是人誕生以來最天然的交互方式。未來輸入法通過語(yǔ)音的方式獲取服務(wù),甚至在搜索、娛樂、購(gòu)物等眾多場(chǎng)景出現(xiàn),也毫不為奇。
早在微軟Build2016開發(fā)者大會(huì)上,微軟CEO納德拉就提出了“Conversations as a Platform”,也就是“對(duì)話即平臺(tái)”的人工智能發(fā)展方向。
這個(gè)概念在后來也被成為是“對(duì)話式人工智能”。
所謂“對(duì)話式人工智能”指的是,對(duì)話本身就是一個(gè)平臺(tái),各種知識(shí)、信息與服務(wù)都運(yùn)行在“對(duì)話”其上,可以形成生態(tài)環(huán)境的基礎(chǔ)平臺(tái)。人和人工智能之間的對(duì)話,即是解決各種問題的一種路徑和方式。
事實(shí)上,百度輸入法正在朝這個(gè)方向努力——用AI改變?nèi)撕褪澜绲慕换シ绞,讓人們隨時(shí)隨地與世界互動(dòng),獲取生活服務(wù)。
二、技術(shù)的躍進(jìn)
產(chǎn)品進(jìn)化終究需要長(zhǎng)期祭奠技術(shù),并在技術(shù)積淀過程中厚積薄發(fā),最終在產(chǎn)品層面體現(xiàn)出來。
這次百度輸入法進(jìn)化的秘密在于“流式多級(jí)的截?cái)郃ttention模型”(注意力模型),還在業(yè)界第一次創(chuàng)新性的提出了SMLAT技術(shù)。這是國(guó)際上首次超越了整句的注意力模型。這也是國(guó)際上首次實(shí)現(xiàn)在線語(yǔ)音大規(guī)模使用注意力模型。
我們先解釋“流式多級(jí)的截?cái)郃ttention模型”這個(gè)問題。
要知道,過去傳統(tǒng)的Attention模型都是基于整句的,整句Attention技術(shù)是在語(yǔ)音都上傳到服務(wù)器后,才能開始聲學(xué)打分計(jì)算和解碼,會(huì)引入較大的用戶等待時(shí)間,沒法做到在線語(yǔ)音交互的大規(guī)模實(shí)時(shí)服務(wù),達(dá)不到上線標(biāo)準(zhǔn)。
百度在使用“流式多級(jí)的截?cái)郃ttention模型”之后,主要技術(shù)優(yōu)勢(shì)在三點(diǎn)。
1、基于CTC的尖峰信息對(duì)語(yǔ)音流進(jìn)行截?cái),然后再每一截(cái)嗟恼Z(yǔ)音小段上進(jìn)行當(dāng)前建模單元的注意力建模;
2、把全局的Attention的整句識(shí)別變成了局部的Attention的流式識(shí)別,并且引入多層的Attention,實(shí)現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇;
3、語(yǔ)音識(shí)別的識(shí)別率超越傳統(tǒng)的全局Attention建模,同時(shí)計(jì)算速度和傳統(tǒng)CTC技術(shù)持平,實(shí)現(xiàn)全CPU流量的大規(guī)模線上服務(wù)。
另外在在離線語(yǔ)音識(shí)別領(lǐng)域,百度輸入法還在持續(xù)優(yōu)化Deep Peak 2系統(tǒng),讓離線語(yǔ)音輸入相對(duì)準(zhǔn)確率再次提升。 這些內(nèi)容聽起來很專業(yè),我們通俗解釋的話就是,這使得語(yǔ)音的相對(duì)準(zhǔn)確率提高了,而且用戶可以說得更自由了。
不管是流式多級(jí)的截?cái)郃ttention模型以及優(yōu)化Deep Peak 2系統(tǒng)。這些技術(shù)進(jìn)展在逗未來在技術(shù)轉(zhuǎn)化和產(chǎn)品落地上產(chǎn)生影響。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-6.16立即報(bào)名>> 【在線會(huì)議】Solution Talks |Computex 2025關(guān)鍵趨勢(shì)深讀
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語(yǔ)權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰(shuí)在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡(jiǎn)單
- 10 為何全球AI巨頭都在搶?MCP協(xié)議背后的暴富玄機(jī)大公開!