聰明機器的誕生,不是一天練成的
無人不知人工智能,但擱二十年前,絕對不是這番光景。
如果穿越回去你問人什么是“人工智能”,他們可能會給你一個讓你出戲的回答——網(wǎng)絡(luò)是有記憶的,搜索引擎告訴我們,在21世紀之初的中文互聯(lián)網(wǎng)上,《人工智能》還是那部2001年上映的,大導(dǎo)演斯皮爾伯格拍攝的科幻電影。如果你想看看與人工智能有關(guān)的新聞,你能在2004年的新浪網(wǎng)里找到一點僅存的痕跡:數(shù)碼相機的“人工智能”自動對焦、電子游戲的“人工智能”對手玩家、阿蘭·圖靈為人工智能設(shè)計的“圖靈測試”……
我們對人工智能的期待遠不止于此。讓技術(shù)趕上人類的想象力,這是一代代科學(xué)家們的時代任務(wù)。
劉冬宇 | 作者
放大燈團隊 | 策劃
拆了那個虛擬人
今天很多科技公司嘗試推出的“虛擬人”或者“數(shù)字人”,可能是我們能想到的人工智能技術(shù)的集大成者之一。一個合格的虛擬人,有一個合成的精巧的形象(可能基于某個真人,也可能憑空創(chuàng)造,可以是三維的,也可以是二次元),能聽能說,談吐得體,配套的表情手勢口型天衣無縫。TA可能出現(xiàn)在新聞播報、教育陪伴等領(lǐng)域,去實現(xiàn)更個性化的、跨學(xué)科知識與生活常識內(nèi)容的輸出;TA也可能會出現(xiàn)在直播娛樂、營銷代言等領(lǐng)域,我們希望它永遠不要翻車、不要出錯,粉絲和品牌也不必戰(zhàn)戰(zhàn)兢兢。
但這很難。虛擬人的每一個動作,都可能是在二十年前,計算機科學(xué)家們就開始致力于解決的一項項工作。
比如讓虛擬人“說話”,就是一項頗有年頭的工作。1999年,科大訊飛剛剛成立的時候,他們最重要的技術(shù),就是讓電腦發(fā)出合成的語音。但從“能說”,到“說得更好”,就成了直到今天仍然在優(yōu)化升級的工作。
今天的虛擬人,它們的合成聲音更自然了,我們通常用0~5分去標(biāo)記語音的自然度,滿分5分是優(yōu)秀播音員的水平,科大訊飛去年做到了相當(dāng)于4.5分的水平。但數(shù)字人需要的對話與表達能力,它甚至不完全是一個自然度的問題,不是純粹的語音合成系統(tǒng)能解決的,更需要內(nèi)容理解、情感表達與合成預(yù)測,這也是現(xiàn)在行業(yè)研究的熱點之一。
還有方言合成、小語種外語語音合成,這兩項工作都需要語言學(xué)家告訴機器這些特定方言與語種的知識。在剛剛過去的科大訊飛1024開發(fā)者節(jié)上,科大訊飛高級副總裁胡國平介紹說,今天科大訊飛語音合成有24個語種。而方言與小語種的成功合成,又反過來推動了這兩類語音識別的工作——先合成語音,再交給語音識別系統(tǒng)去訓(xùn)練,它能讓100小時的有監(jiān)督數(shù)據(jù)和無標(biāo)簽文本訓(xùn)練,實現(xiàn)原本10000小時數(shù)據(jù)的訓(xùn)練效果。
在近日國際低資源多語種語音識別競賽OpenASR上,科大訊飛-中科大語音及語言信息處理國家工程實驗室的聯(lián)合團隊,就在15個語種、22條賽道的比賽中,全部取得第一。
小樣本訓(xùn)練(科大訊飛又稱之為個性化語音合成),也是這幾年語音合成技術(shù)的突破之一,你說一句話,系統(tǒng)就能仿照你的聲音去合成。這與我們有什么關(guān)系?個性化語音已經(jīng)走進你的日常生活,比如導(dǎo)航App已經(jīng)可以錄制自己的導(dǎo)航語音包,就離不開這個小樣本學(xué)習(xí)的模型;如果未來你需要在數(shù)字世界建立一個虛擬化身,想讓它能像你一樣說話,這門技術(shù)顯然還有用武之地。
也比如“唱歌”。科大訊飛1024開發(fā)者大會上,一位“虛擬人”就上臺展示了如同真人般的語音交談,她甚至還能唱歌——讓我們再次回到世紀之交,2000年那會兒,雅馬哈公司開始研發(fā)一款讓電腦唱歌的軟件“VOCALOID”。
幾年后,基于VOCALOID系統(tǒng)的一個聲庫“初音未來”,成了今天業(yè)界討論“虛擬人”與“虛擬偶像”話題繞不開的名字。很多鼓吹虛擬偶像的媒體不會告訴你的是,她只是一個提線木偶,由編曲者告訴她該唱什么、該怎么唱,要細化到每一個音節(jié)都要用一大堆參數(shù)去指定她來工作,即使如此,你還是能一耳朵就聽出來這是電子歌姬的聲音。而在聲音之外的形象上,她也不是官方塑造的產(chǎn)物,而是在創(chuàng)作者們的二次創(chuàng)作下,才逐漸擁有了更清晰的形態(tài)、更圓滿的故事與性格。
今天的虛擬人呢?他們早已學(xué)會了自主地完成唱歌的任務(wù),比如科大訊飛的“虛擬人愛加”、從微軟獨立的“小冰”。這也是你看得見的人工智能。
虛擬人“愛加”
今天的虛擬人還要能聽懂人說話,這是更漫長的長跑。
2002年,科大訊飛的科學(xué)家們開始嘗試讓電腦聽懂聲音——從普通話等級考試的答題開始。
為什么是普通話等級考試?當(dāng)然是因為語音識別不太容易,需要找到一個更容易上的臺階。你想象一下這兩樣任務(wù):
A. 讓電腦直接聽你說話,猜猜你在說什么;
B. 讓電腦預(yù)先知道你在讀什么,然后聽聽你讀得對不對。
哪個更容易實現(xiàn)?當(dāng)然是B。這是技術(shù)路線“可達性”方面的原因,但還另有玄機。
在科大訊飛研究了十年語音技術(shù)的科大訊飛AI研究院副院長潘嘉還告訴我們,普通話等級考試還有一個特點:它的答卷是在錄音室里,用合適的設(shè)備,讓考生盡可能標(biāo)準地讀出內(nèi)容。而在語音識別的初始階段,工程師們必須先從這種無限接近理想情況下,從高質(zhì)量語音的評測開始做起。
讓計算機聽懂語音,在幾年的技術(shù)孵化后,迅速被投入到普通話等級考試中去。為什么一定要搞定這個技術(shù),讓機器去給人打分?實際上,為口語考試打分的工作量,遠遠超過其它任何一種考試形態(tài)。批作文可以一目十行,但普通話考試的老師必須仔細聽完每一段語音、不漏過每一個讀錯的字,才能打分。
從最簡單的語音考試,直到今天語音識別系統(tǒng)在嘈雜的車里、會議室里、演講廳里,都能聽懂中文外語方言,這又是長達二十年的工作。胡國平將這種技術(shù)演進方法總結(jié)為“臺階”,在每個技術(shù)發(fā)展階段只做能做到的事情,要成為先驅(qū),不要成為先烈。而在今天,虛擬人身上還裝備著更多的技能:
如何讓虛擬人配合聲音做出動作與表情?
如何用除了語音對話之外的方式,比如通過視覺去判斷人的意圖、對話對象等?
讓虛擬人表達情感,需要一系列創(chuàng)新
虛擬人是一籮筐人工智能技術(shù)的集合:多模態(tài)感知、語音識別、對話理解、對話生成、語音合成、虛擬人形象生成等等,這里的每一項技術(shù),都可能是中國快速數(shù)字化進程中的一朵朵浪花。
二十年來,AI的發(fā)展就是這樣一個個臺階走上來。每一個想解決的問題想開發(fā)的功能,都要從更小的問題入手。而成立于1999年的科大訊飛,也已經(jīng)把數(shù)字人推向了幾十家電視臺等工作場景中去。他們現(xiàn)在想解決的問題,也早已從聽懂“照本宣科”的語音考試,變成了人類與機器之間的幾個根本問題,由語音業(yè)務(wù)而起,直到讓機器能聽、能看、能理解這個世界。
從語音到一切
世紀之交,OCR問題是諸多技術(shù)公司們試圖攻破的關(guān)鍵技術(shù)高峰,與科大訊飛差不多同期建立的漢王公司,便是早早將實驗室里的OCR技術(shù)落地成應(yīng)用產(chǎn)品的公司。最早,OCR被用于掃描錄入文檔,從掃描標(biāo)準印刷體到識別手寫體文檔,OCR跨過了一個個難關(guān);而在今天,OCR已經(jīng)深入一個個App和產(chǎn)品中,拍照翻譯、“翻譯筆”、名片錄入、手寫輸入法等等,背后都有OCR的功勞。
可能是因為它的確太有用,到了2006年,漢王的OCR技術(shù)拿到了國家科學(xué)技術(shù)進步獎二等獎。
也就在這個時刻,科大訊飛AI研究院首席科學(xué)家魏思覺得,OCR還會在更多領(lǐng)域有潛在的應(yīng)用價值,特別是教育——2002年,科大訊飛開始的語音評測項目,就與教育、考試系統(tǒng)有著分不開的聯(lián)系,而OCR,顯然它就是進一步讓機器閱卷必需的關(guān)鍵技術(shù)——讓機器識別答題卡。
它非得突破不可。但機器要如何識別漢字呢?在漫長的時間里,科大訊飛的科學(xué)家們嘗試過一個又一個方案。
早期的科大訊飛OCR團隊,就用人工分析字體的關(guān)鍵特征來識別單個漢字,他們試圖用這種方式去優(yōu)化科大訊飛輸入法的手寫輸入準確率——這個2010年上線的輸入法,主打的就是自然高效的語音識別輸入,而手寫同樣作為自然語言,也值得多做一些工作。
就在OCR團隊優(yōu)化手寫識別的時候,魏思和潘嘉也在同步帶隊將新興的深度學(xué)習(xí)方法應(yīng)用在語音識別領(lǐng)域。2010年,微軟的一篇論文,宣告了深度神經(jīng)網(wǎng)絡(luò)(DNN)在語音識別中的超高效率,科大訊飛的科學(xué)家們則成了第一批在中文語音上使用DNN方法的先行者。
“為什么我們不拿語音識別的技術(shù)試試呢?”
2014年,科大訊飛在改進圖像字符識別OCR技術(shù)時,科大訊飛AI研究院的兩撥科學(xué)家們在辦公室里碰出了這么一個新想法。當(dāng)時,魏思領(lǐng)導(dǎo)的語音識別團隊,與OCR團隊的工位相隔不遠,當(dāng)時兩伙人一對,發(fā)現(xiàn)語音識別與字符識別,其實存在非常多的相似之處,而在那個時刻,語音識別團隊已經(jīng)琢磨了四年深度神經(jīng)網(wǎng)絡(luò)(DNN),也借助這個工具把語音的識別率迅速提升,并用到了輸入法等實際的業(yè)務(wù)里。
“魏思是經(jīng)常會提出很多新的想法的,他的風(fēng)格就是只要能解釋得通,就一定要試一試,并且他會跟下面所有人去分享他這個東西。他能來帶動整個AI研究院的氣氛嘛,科大訊飛能做出一些典型工作,這個氣氛很重要!闭Z音識別專家潘嘉回憶。當(dāng)年,魏思還主導(dǎo)了科大訊飛AI研究院里的“大組會”——在理工科實驗室呆過的同學(xué)對這個名詞想必不會陌生,而在科大訊飛,這個會議承載了各個團隊交流各方向最新國際進展的關(guān)鍵場合,科大訊飛AI研究院的三條技術(shù)主線:語音、計算機視覺、認知智能,魏思和其它資深的技術(shù)專家要參與每個方向的技術(shù)報告。
很快,科大訊飛AI研究院的科學(xué)家們就用同樣的底層模型,實現(xiàn)了OCR識別的準確率突破,并應(yīng)用到了很多年前為OCR規(guī)劃的應(yīng)用場景里:全學(xué)科的試卷閱卷。這套系統(tǒng)很快完成了中高考英文作文識別的任務(wù),并結(jié)合自然語言處理,與閱卷老師共同完成作文的打分工作。
直到今天,科大訊飛的OCR技術(shù)的底層,仍然是這套源于語音識別的深度神經(jīng)網(wǎng)絡(luò)框架。但在OCR之后,讓機器看懂人的語言,還遠遠沒有到頭——接下來的工作,是讓機器識別數(shù)理化的公式。
從科大訊飛開始OCR研究只能看筆劃特征的單字識別,到今天的OCR識別手寫公式、判斷數(shù)學(xué)題的對錯,再到拍攝錄入結(jié)構(gòu)化、帶有排版信息的文檔表格,已經(jīng)過去了十年?萍脊镜目茖W(xué)家們用幾年、甚至十幾年解決了技術(shù)問題,才有了今天我們習(xí)以為常、人人都能用得上的產(chǎn)品功能。
這仿佛是科大訊飛二十年的縮影:他們早早看到了技術(shù)的潛在價值、一步一個臺階地研發(fā)與落地。在AI這個容易 “燒錢”的行業(yè)里,科大訊飛活了下來,持續(xù)地進行技術(shù)研發(fā)與技術(shù)轉(zhuǎn)化,成了布局全面且擁有多項全球頂尖技術(shù)的人工智能公司。
它的根,是二十年前的簡單的需求:讓電腦學(xué)會說話的語音合成技術(shù)。我們嘗試按時間線整理科大訊飛擴張技術(shù)邊界的過程,它大概是這樣——
而我們最大的發(fā)現(xiàn)是:我們很難看到某一項業(yè)務(wù)的橫空出世,所有的技術(shù)與業(yè)務(wù),都有跡可循,就像這個把語音識別的技術(shù),用在視覺場景的故事一樣。
聰明機器的誕生
2005年,科大訊飛開始研究語音識別;2015年,一個語音識別的關(guān)鍵技術(shù)應(yīng)用“語音轉(zhuǎn)寫”正式上線,而錄音轉(zhuǎn)寫工具“訊飛聽見”也在這個時間點開始孵化。2018年,科大訊飛的中英語音翻譯系統(tǒng),首次達到了CATTI全國翻譯專業(yè)資格(水平)考試二級合格標(biāo)準,這意味著這套系統(tǒng)可以參與到重大會議的翻譯過程中。
為什么這個看起來很直觀的功能,需要用長達十年的時間去完成?
因為很多應(yīng)用場景,拆開來看,其實遠比想象得復(fù)雜。在科大訊飛1024開發(fā)者大會上,胡國平說,會議的轉(zhuǎn)寫、實時翻譯與同聲傳譯,其實是典型的復(fù)雜系統(tǒng)。語音輸入的識別只是其中一部分,為了提高大會實時轉(zhuǎn)寫翻譯的效果,還需要讓系統(tǒng)讀懂PPT特別是實時或者提前學(xué)習(xí)會議中的術(shù)語,而在同聲傳譯的工作中,需要把傳統(tǒng)的一句句翻譯、語音合成,改成低延時、全流式的合成方式,并學(xué)習(xí)演講者的聲紋,合成翻譯的語音。
即使是最初的語音識別環(huán)節(jié),會議的轉(zhuǎn)寫系統(tǒng)也面臨著諸多技術(shù)考驗。潘嘉告訴我們,會議轉(zhuǎn)寫這種場景下,系統(tǒng)面對的不是一個正在面向機器說話的人——如果你在用語音輸入法,你會刻意地把字讀清楚,不會有額外的沒有意義的語氣詞;而會議場景,演講者面對的是人,他的語言習(xí)慣會更加自然,可能會口吃,會有“嗯”“啊”這樣的無意義的過渡詞,轉(zhuǎn)寫系統(tǒng)所面對的這些現(xiàn)實問題,成了AI研究院的科學(xué)家們的技術(shù)難題。
從語音識別,到讓系統(tǒng)知道語言的意義,中間還有一個關(guān)鍵的技術(shù):NLP。這也是接下來一個技術(shù)臺階“認知智能”的基礎(chǔ)。NLP技術(shù)在其中發(fā)揮重要作用的教育和消費者業(yè)務(wù),成了今天科大訊飛在消費者層面最直觀的業(yè)務(wù):會議轉(zhuǎn)寫、教育硬件等等。
當(dāng)系統(tǒng)可以聽懂人在說什么、知道了語言的意思、也早早擁有了合成聲音的能力,科大訊飛就有了語音交互的能力——人類將如何與機器共存,如何與機器交流,這樣的重大命題,就要由“理解語言”開始。
每一個實際的社會需求,都指向某個技術(shù)問題,解決了它,就能讓AI真正為人類做點什么。我們在整理科大訊飛的技術(shù)演進時,這種感覺愈加強烈。我們見過太多技術(shù)極強的科技公司的衰落,科大訊飛科技樹的根,語音合成,本身也不像是一條長賽道。但為什么科大訊飛能走到了今天,并且在以“燒錢”著稱的人工智能賽道里,早早盈利上市?答案也就在這個“技術(shù)演進”里:需求就在那里,科學(xué)家們需要尋找可達、階段式上升的技術(shù)路線,并通過系統(tǒng)性創(chuàng)新,把一項項單點、底座式的技術(shù),裝配成最終的應(yīng)用。
科大訊飛AI研究院今天的三大方向:語音、計算機視覺與認知智能,組成了科大訊飛對外總結(jié)的“AI科技樹”。
認知智能是一個有趣的工作,科大訊飛AI研究院的認知智能專家盛志超告訴我們,在2014年他剛剛來到科大訊飛時,整個認知智能方向也只有十幾個人,研究的正是上面所說的中英文作文的批改。他們要給機器“注入靈魂”,學(xué)習(xí)教學(xué)專家的評分標(biāo)準:有沒有語法錯誤?有沒有高級的句式和修辭?
緊隨作文評分之后,同樣在2014年,科大訊飛開始讓系統(tǒng)理解醫(yī)學(xué)、法律等各行各業(yè)的知識,2017年,科大訊飛的人工智能首次通過了國家職業(yè)醫(yī)師資格考試,考試成績超越了96%的真人考生。但考試只是表征這套AI的階段性成果,它真正的用途,一是在于讓人工智能系統(tǒng)學(xué)習(xí)專家的知識,幫助基層醫(yī)生提供診斷。而這正推動了“智醫(yī)助理”業(yè)務(wù)成立和發(fā)展,目前已落地全國20多個省,累計在全國200多個區(qū)縣、3萬多家基層醫(yī)療機構(gòu)上線,為5萬多名基層醫(yī)生服務(wù) ;二是幫助患者在掛號中預(yù)先填寫癥狀、實現(xiàn)智能的分診掛號。
這是一個把實際問題抽象為計算機科學(xué)問題的過程。在1024開發(fā)者大會上,科大訊飛高級副總裁胡國平總結(jié)了“系統(tǒng)性創(chuàng)新”的三大要素:一是重大系統(tǒng)性命題到科學(xué)問題的轉(zhuǎn)化能力;二是從單點的核心技術(shù)效果上取得突破,跨過應(yīng)用門檻;三是把創(chuàng)新鏈條上各個關(guān)鍵技術(shù)深度融合,最終實現(xiàn)真正意義上的系統(tǒng)性創(chuàng)新。
某種程度上說,這也正是科大訊飛這家公司賴以生存的創(chuàng)新機制——在中國波瀾壯闊的信息化進程中,讓電腦幫我們解決一個個問題、讓“技術(shù)創(chuàng)新型”企業(yè)科大訊飛從語音走向全面智能,屹立二十年不倒的,也正是這種面向?qū)嶋H價值、技術(shù)逐級而上、系統(tǒng)性地解決問題的研究。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機器人東風(fēng)翻身?