從人工智能賽事看,AI人才培養(yǎng)需要閉環(huán)
每每提到“AI開發(fā)者”,大多數(shù)人想到的可能是來自互聯(lián)網(wǎng)大廠的“程序猿”們,他們身居算法工程師、數(shù)據(jù)工程師等高光崗位,有著名校博士乃至博士后的傲人學(xué)歷,并且拿著動輒百萬的年薪。
正如大家所看到的,人工智能的第三次浪潮已經(jīng)持續(xù)了一段時間,逐漸從象牙塔走進(jìn)了社會的角角落落?稍诖蠖鄶(shù)人的認(rèn)知里,AI仍然有著相當(dāng)遠(yuǎn)的距離,仍然是部分高知分子研究的產(chǎn)物,仍然是一本普通人觸碰不到的“天書”。
但現(xiàn)實(shí)中正在發(fā)生的一些事情,儼然超出了我們的預(yù)想。
埃隆·馬斯克為特斯拉招聘AI人才時曾直言:“博士學(xué)位絕對不是必需的,我不在乎你是否高中畢業(yè)!辈煌谠S多人對學(xué)歷和經(jīng)歷的癡迷,馬斯克正在尋找那些對人工智能有“深刻理解”的人。
不只是特斯拉的不拘一格,在游離于大多數(shù)人視線外的賽場上,一群20歲上下的少年剛剛經(jīng)歷了一場在AI世界的“奇幻漂流”,詮釋著他們對人工智能的理解。
01 像看地圖一樣看新聞
正在讀大四的羅運(yùn)是武漢大學(xué)地理信息科學(xué)專業(yè)的本科生,他與AI的機(jī)緣開始于年初的新冠疫情。
寒假回到家鄉(xiāng)的羅運(yùn),剛剛過了幾天可以賴床的生活,就被班級群里的討論繃緊了神經(jīng)。原來在他們離校幾天后,武漢就因?yàn)樾鹿谝咔榉饬顺。羅運(yùn)想要了解那座熟悉的城市到底發(fā)生了什么,努力在社交媒體和資訊平臺上搜索一切和武漢相關(guān)的新聞,卻發(fā)現(xiàn)網(wǎng)上充斥著太多的謠言和假消息,想要進(jìn)一步查找學(xué)校周邊的情況,只能在社交媒體上找到寥寥幾條無法確證的內(nèi)容。
由于地理信息科學(xué)屬于計(jì)算機(jī)和地理的交叉學(xué)科,除了和地理有關(guān)的課程,羅運(yùn)還自學(xué)了計(jì)算機(jī)編程,并且經(jīng)常在國外的慕課平臺上看一些人工智能的課程和案例。苦于查找武漢當(dāng)?shù)匦侣劦牧_運(yùn)萌生了一個大膽的想法:能不能將地圖和新聞資訊進(jìn)行結(jié)合,像看地圖一樣查看當(dāng)?shù)氐男侣?
羅運(yùn)將自己的想法和參加大學(xué)生創(chuàng)新創(chuàng)業(yè)比賽時的兩個小伙伴進(jìn)行了溝通,三人一拍即合,決定打造一款以地圖為導(dǎo)向的時空新聞交互網(wǎng)頁應(yīng)用。
團(tuán)隊(duì)首先確認(rèn)了他們想要抓取的比較權(quán)威且有公信度的新聞源網(wǎng)站,然后使用Scrapy異步爬蟲框架對新聞進(jìn)行智能提取,在百度飛槳提供的深度學(xué)習(xí)框架的支持下,基于文心ERNIE進(jìn)行命名實(shí)體識別,再聯(lián)合百度地圖等的地理編碼服務(wù),利用PostGIS計(jì)算空間數(shù)據(jù)的尺度、跨度,進(jìn)行分詞和詞性提取后,運(yùn)用TF-IDF、LDA等算法進(jìn)行文本的向量化、詞頻分析、主題分析、相似度分析,最后采用飛槳的GRU4Rec模型根據(jù)用戶行為序列與興趣區(qū)域推薦新聞。
經(jīng)過四個多月的開發(fā)測試后,將地圖和新聞結(jié)合的網(wǎng)頁應(yīng)用正式上線。當(dāng)羅運(yùn)將鼠標(biāo)點(diǎn)向武昌火車站的時候,網(wǎng)頁上彈出了長江網(wǎng)的最新消息,內(nèi)容是武漢市解除離漢離鄂通道管控,涉及武昌站、武漢站、漢口站等火車站?粗约旱某晒,羅運(yùn)比任何一刻都更想念這熟悉的城市、熟悉的學(xué)校。
不善言談的他,很快和小伙伴定好了下一步的目標(biāo):目前他們正在為這款應(yīng)用添加新的功能,逐步增加情感趨勢面分析、輿論導(dǎo)向分析等功能,方便普通用戶在地圖上找到不同時段新聞的同時,幫助有關(guān)部門從新聞和民眾的情緒中挖掘社會的熱點(diǎn)和痛點(diǎn)。
02 告別垃圾分類的煩惱
距離武漢700多公里的杭州市,杭州電子科技大學(xué)信息工程學(xué)院計(jì)算機(jī)專業(yè)的揭金民也在進(jìn)行一場人工智能之旅 。
家在杭州的揭金民看到媽媽每天都要花不少的時間對廚余垃圾、可回收垃圾、有害垃圾等進(jìn)行分類,可由于垃圾的種類繁多,常常出現(xiàn)分類錯誤的情況。社區(qū)只好派駐志愿者在各個小區(qū)監(jiān)督,基本就是居民剛剛?cè)油昀?志愿者需要重新在垃圾桶里扒一遍。
有志愿者守在垃圾桶旁邊檢查,大家反而有了“僥幸心理”——畢竟就算分錯了類也會有志愿者重新分類?粗驹刚呙刻煸诔魵庋斓睦爸袧M頭大汗地分揀,揭金民心里有些不是滋味。有沒有什么辦法能讓媽媽不再為垃圾分類頭疼,又能幫助這些志愿者?
作為一名計(jì)算機(jī)專業(yè)的本科生,揭金民想要用人工智能來改變現(xiàn)狀:倘若可以用計(jì)算機(jī)視覺技術(shù)對垃圾進(jìn)行分類識別,居民們就能更輕松地完成垃圾分類,準(zhǔn)確性也會提升,志愿者也不用再忍受惡臭翻垃圾桶。
揭金民拉上了兩位軟件工程專業(yè)的同學(xué),以三人小分隊(duì)的形式踐行自己心中的想法。揭金民負(fù)責(zé)硬件設(shè)計(jì),他要做一個三層結(jié)構(gòu)的智能垃圾桶,第一層進(jìn)行垃圾的識別,第二層對垃圾進(jìn)行處理,第三層存儲不同類別的垃圾。另外兩個小伙伴分別負(fù)責(zé)系統(tǒng)后臺和前端的開發(fā)工作。
敲定了分工后,必須解決的一個核心問題是打造垃圾分類的算法模型。如果自己寫一套圖像識別算法,目前的水平和積累跟不上,會拖延產(chǎn)品成型的時間、錯過了最佳的市場。好在團(tuán)隊(duì)找到了百度的EasyDL平臺,作為一個零門檻的AI開發(fā)平臺,EasyDL上有著豐富的算法模型,包括圖像分類、人臉識別等等,算法模型終于有了“譜”。揭金民和小伙伴如釋重負(fù),立刻把精力放在了硬件和系統(tǒng)開發(fā)上。
在長達(dá)一年的時間里,揭金民團(tuán)隊(duì)收集整理了近2萬張垃圾照片,其中包含大量袋裝垃圾,在EasyDL訓(xùn)練后的識別準(zhǔn)確率高達(dá)96%。硬件設(shè)計(jì)組裝完成后,揭金民將智能垃圾桶放在自己家小區(qū)進(jìn)行試點(diǎn),目前已經(jīng)協(xié)助用戶完成了近1000kg垃圾的分類,異常識別率控制在5%以內(nèi)。
“這只是第一步。我們想推出家庭版的智能分類垃圾桶,還想嘗試推出一種‘代扔垃圾’的服務(wù)……”細(xì)心的揭金民已經(jīng)想好了未來的種種可能。
03 解放高空中的補(bǔ)漆工
在國內(nèi)風(fēng)能資源最為豐富的西北地區(qū),一座座風(fēng)車如森林般矗立,源源不斷地將風(fēng)能轉(zhuǎn)化為電能。
然而風(fēng)機(jī)的維護(hù)卻成了一項(xiàng)讓人頭疼的難題,西安電子科技大學(xué)的黃耀輝了解到風(fēng)機(jī)的維護(hù)需要工人們綁著繩索爬到高空中,提著漆桶進(jìn)行補(bǔ)漆維護(hù)作業(yè)。
小時候她覺得那是一件有冒險精神的事情,長大后才知道冒險的背后是可怕的風(fēng)險:高空補(bǔ)漆通常處于二級、三級乃至特級高處作業(yè),二級高處作業(yè)墜落死亡率就高達(dá)40% ;同時《工業(yè)衛(wèi)生與職業(yè)病》中指出,油漆工人中7.2%出現(xiàn)了白細(xì)胞數(shù)減少, 18.3%患有沙眼,22.8%心電圖異常,17.8%視力下降……
作為西安電子科技大學(xué)創(chuàng)新創(chuàng)業(yè)實(shí)驗(yàn)班的學(xué)生,黃耀輝在心中一直藏著“解放”高空補(bǔ)漆工的想法,并在課余時間自學(xué)了人工智能相關(guān)的課程。一次偶然的機(jī)會,黃耀輝在學(xué)校的微信群中看到同學(xué)們在討論飛槳,在好奇心的驅(qū)動下走進(jìn)了深度學(xué)習(xí)的世界。
與深度學(xué)習(xí)結(jié)緣之時,黃耀輝也認(rèn)識了一個同校的好伙伴:左誼。那時左誼正在團(tuán)隊(duì)中做一個無人機(jī)的項(xiàng)目,他和黃耀輝溝通后,大家迅速萌生了一個新的主意:既然飛槳上有那么多成熟的算法模型,或許可以將人工智能和無人機(jī)做一個結(jié)合,讓無人機(jī)替代工人完成高空中的補(bǔ)漆工作。
團(tuán)隊(duì)討論明確了目標(biāo)后,左誼作為隊(duì)長將無人機(jī)的工作拆解為四個過程。第一步是檢查出銹斑并噴涂除銹劑,第二步是讓無人機(jī)打磨銹跡,第三步和第四步分別是涂刷底漆和面漆。由于團(tuán)隊(duì)在無人機(jī)巡檢和機(jī)械控制方面已經(jīng)有一定的積累,問題主要集中在圖像識別和噴繪控制系統(tǒng)兩個方面。
團(tuán)隊(duì)調(diào)用了飛槳里的計(jì)算機(jī)視覺模型,采用了空地聯(lián)動的形式進(jìn)行作業(yè),即無人機(jī)將第一時間的圖像傳送到地面站,地面站搭建高效識別設(shè)備并將數(shù)據(jù)再次發(fā)送給無人機(jī)。由于采用了視覺SLAM技術(shù),靠無人機(jī)上的攝像頭就能完成環(huán)境的感知工作,不僅降低了硬件上的成本,也提升了實(shí)地作業(yè)的可行性。
目前這一項(xiàng)目已經(jīng)在校園內(nèi)完成了測試:無人機(jī)緩緩飛到路燈桿上的電箱附近,準(zhǔn)確識別出了電箱上的銹斑,然后打磨、涂刷一氣呵成,距離他們解放高空補(bǔ)漆工人的想法已經(jīng)越來越近。
作為團(tuán)隊(duì)的一員,黃耀輝這位大西北土生土長的女孩看到無人機(jī)飛起時眼眶竟然有些濕潤:“雖然現(xiàn)在還只是一個比賽,但我相信通過我們的努力,那些工人們終歸有一天不用再冒著生命危險爬到高空進(jìn)行作業(yè)!
04 讓瀕危語言不再消失
遙遠(yuǎn)的英國南約克郡,正在謝菲爾德大學(xué)Lincedo組讀博的Xutan Peng(彭煦潭),同樣有一個“科技向善”的公益構(gòu)想。
2020年初的“國際母語日”期間,Xutan Peng在謝菲爾德大學(xué)人文學(xué)院聽了一場演講,了解到全球現(xiàn)存7000余種有記錄的語言中,已經(jīng)有超過400種瀕臨滅絕,超過200種處于接近瀕危的狀態(tài)!罢Z言是文明的DNA”,當(dāng)一些語言不再被傳遞給下一代的時候,意味著一個文明正在被人們所忘卻。
科班出身的Xutan Peng,發(fā)現(xiàn)當(dāng)下瀕危語言的保護(hù)手段還是一項(xiàng)“勞動密集性”工作,需要大量專家進(jìn)行田野調(diào)查采集語料。由于還在說瀕危語言的人群以老人為主,他們中極少有人能同時使用漢語和本民族語言,導(dǎo)致對語料進(jìn)行人工轉(zhuǎn)寫時存在很大難度。巧合的是,將自然語言處理作為研究方向的Xutan Peng正在關(guān)注低資源語言的詞典生成,就萌生了以自身一技之長來減輕瀕危語言保護(hù)工作量的念頭。
Xutan Peng戲稱自己是個話癆,所以對語言相關(guān)的工作有著天生的興趣。然而現(xiàn)實(shí)問題的復(fù)雜度遠(yuǎn)超Xutan Peng的料想,盡管國內(nèi)已經(jīng)在少數(shù)民族語言保護(hù)上做了很多卓有成效的工作 ,可很多瀕危語言的文字已經(jīng)失傳,只有語音留存,研究者甚至無法獲知其背后所傳達(dá)的語義。
不過Xutan Peng發(fā)現(xiàn),少數(shù)民族的語料主要圍繞神話傳說、民間故事、民歌和日常會話,或許可以構(gòu)建現(xiàn)代漢語同領(lǐng)域的語料庫,當(dāng)各自的語料領(lǐng)域相對近似時,可以通過對齊算法建立瀕危語言和現(xiàn)代漢語之間的聯(lián)系。
Xutan Peng先是拿到了相關(guān)數(shù)據(jù)的授權(quán),借助PaddleOCR將相關(guān)紙質(zhì)語料轉(zhuǎn)化成文本,建立了業(yè)界首個大規(guī)模漢語故事數(shù)據(jù)集。然后從國際開源語料數(shù)據(jù)庫找到了爾蘇、嘉絨、獨(dú)龍、撒拉四種語言,并將母語者的錄音進(jìn)行國際音標(biāo)轉(zhuǎn)寫。
最終Xutan Peng將少數(shù)民族語言詞匯嵌入到一個高維語義空間,漢語詞匯被嵌入到另一個空間,基于雙語詞向量結(jié)構(gòu)近似性,利用正交映射對齊兩個空間,生成了高質(zhì)量大規(guī)模的雙語詞典。
目前Xutan Peng已經(jīng)將導(dǎo)出的詞典提供給中國社科院的研究者進(jìn)行內(nèi)測,在多數(shù)詞和名詞方面的翻譯準(zhǔn)確率非常理想,有效提升了對少數(shù)民族語言進(jìn)行轉(zhuǎn)錄和瀕危語言典藏工作的速度。這位特別能說的大男生不忘強(qiáng)調(diào):“你們看吧,語言就是這么有趣。”
05 AI人才培養(yǎng)需要閉環(huán)
看完這些故事,你是否發(fā)現(xiàn)這些年輕人們并非都是科班出身,有些甚至在開始這些項(xiàng)目前對編程都知之甚少。但他們也有共性:心思縝密,擅長發(fā)現(xiàn)生活中遇到的痛點(diǎn),并且希望通過人工智能技術(shù)去解決。
好在百度飛槳、EasyDL降低了這群少年走進(jìn)AI世界的門檻,讓他們略顯稚嫩卻充滿朝氣的想法有了新的可能。
從好創(chuàng)意變成好應(yīng)用,AI人才培養(yǎng)機(jī)制在其中起著關(guān)鍵的作用。雖然越來越多的高校開設(shè)了人工智能專業(yè)或課程,越來越多的政府和企業(yè)為AI人才開出了優(yōu)渥的條件,動輒百萬的年薪也切實(shí)激勵著當(dāng)下的年輕人,只是選出“千里馬”所需要的不僅僅是伯樂,還要給他們一片可以自由馳騁的寬闊草原。
做一個歸納的話:“聞鼙鼓而思良將,謀大業(yè)而召英才”固然有道理,但AI人才培養(yǎng)還需要有人才培養(yǎng)的閉環(huán)思維,需要政府、高校和企業(yè)一道打通激勵、培養(yǎng)、實(shí)訓(xùn)、競賽、就業(yè)的產(chǎn)業(yè)鏈條。
至少在剛剛結(jié)束的中國高校計(jì)算機(jī)大賽-人工智能創(chuàng)意賽賽場上,免費(fèi)的算力資源已經(jīng)幫他們把想法變成了現(xiàn)實(shí),半年的實(shí)操經(jīng)歷也讓他們對想要解決的問題有了更深刻的理解。
所幸百度代表的AI頭雁們已經(jīng)開始行動。
前面講述的四個故事,不過是百度承辦的第三屆“中國高校計(jì)算機(jī)大賽-人工智能創(chuàng)意賽”的一隅,同樣懷揣夢想的還有2200多支學(xué)生團(tuán)隊(duì),他們正在各自關(guān)注的領(lǐng)域續(xù)寫屬于自己的故事。就像上一屆比賽中獲獎的中南大學(xué)“AI 知膚寶”團(tuán)隊(duì)已經(jīng)拿到數(shù)千萬的孵化基金,他們的項(xiàng)目已經(jīng)聯(lián)網(wǎng)國內(nèi)618家醫(yī)院,幫助10000多名醫(yī)生進(jìn)行初步的病情診斷。
其實(shí)“以賽促學(xué)”是高校AI人才培養(yǎng)中的重要一環(huán),百度打造的一整套AI人才培養(yǎng)體系已經(jīng)成型:
面向高校,百度為AI人才培養(yǎng)提供了全套教學(xué)和數(shù)據(jù)資源,學(xué)習(xí)與實(shí)訓(xùn)社區(qū)AI Studio以及算力等全面支持,聯(lián)合共建專業(yè)課程體系,舉辦師資培訓(xùn)班,已累計(jì)培訓(xùn)了1600多名來自近500所高校的教師;
面向企業(yè),百度打造了黃埔學(xué)院、AI快車道、AI私享會等面向不同技術(shù)層級的培訓(xùn)方案,構(gòu)建深度學(xué)習(xí)專業(yè)加實(shí)踐應(yīng)用的課程體系。此外,百度還通過開展能力評估認(rèn)證、舉辦競賽等為人才培養(yǎng)保駕護(hù)航。
百度已經(jīng)培養(yǎng)了超過100萬AI人才,未來5年,還將培養(yǎng)500萬AI人才,為中國智能經(jīng)濟(jì)和智能社會的發(fā)展提供人才保障。
有理由相信,在百度等企業(yè)身體力行的推動下,將有越來越多的“少年”在AI世界里進(jìn)行一場場“奇幻漂流”,用一個個可以觸摸的項(xiàng)目演繹他們心中世界的樣子。
彼時我們再討論百度對于中國AI人才的貢獻(xiàn)時,恐怕不只是培養(yǎng)了高端人才的“黃埔軍!,也將是無數(shù)優(yōu)秀AI人才的“啟蒙工廠”。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺
- 5 國產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長空間
- 8 地平線自動駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?