為甲骨文研究插上科技的翅膀 帶你揭秘3000年前的那個(gè)王朝
甲骨文是商朝王室用于占卜記事而篆刻在龜甲和獸骨上的符號(hào),距今約有3600多年的歷史,是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),對(duì)專家學(xué)者研究商代歷史、文字發(fā)展史、中華文明起源具有極高的歷史價(jià)值、文化價(jià)值和藝術(shù)價(jià)值。
自殷商甲骨文出土以來,現(xiàn)已發(fā)現(xiàn)分布在海內(nèi)外的甲骨約16萬片,共有單字4300多個(gè),但目前取得共識(shí)的破譯字僅1500多個(gè),還余下三分之二的未釋字,甲骨文考釋工作任重而道遠(yuǎn)。
近日,CCTV-9紀(jì)錄頻道通過一部人文歷史系列紀(jì)錄片《甲骨王朝》,從文化疆域、社會(huì)生活、占卜制度、生產(chǎn)科技等多個(gè)方面,揭開了商王朝的神秘面紗,還原了商王朝的歷史面貌,也近距離地向觀眾展示了一段“特別的”甲骨文的考釋工作。
央視紀(jì)錄片《甲骨王朝》視頻畫面
一片甲骨驚天下 科技破解古文字蘊(yùn)藏的文化密碼
甲骨文破譯的難點(diǎn)在于,經(jīng)歷了數(shù)千年的歲月,商代社會(huì)與現(xiàn)代社會(huì)差異巨大,文字的形體、意義、讀音都發(fā)生了劇烈的變化,加上甲骨殘斷、拓片不清、語料缺乏等諸多因素,通過人工破譯甲骨文的難度大、耗時(shí)長(zhǎng)。
同時(shí),甲骨文獨(dú)體字中象形字占多數(shù),并且“一字多形、一字多義”情況很多,辨識(shí)難度極大,工作十分繁重。如下面一組甲骨文:
甲骨文“龜”,出自《漢語詞典》(黃揚(yáng)主編)
其實(shí),上面的甲骨文都是同一個(gè)字,“龜”。在已破譯的甲骨文中,龜字有多種書寫方式——正視的、側(cè)視的;四只腳的、六只腳的……可謂五花八門,形態(tài)各異。甲骨文的研究真是既有趣又充滿挑戰(zhàn)。
要攻克甲骨文破譯這一學(xué)界的超級(jí)難題,新技術(shù)的跨界融合提供了新的思路。首都師范大學(xué)甲骨文研究中心莫伯峰教授聯(lián)手華為云AI工程師團(tuán)隊(duì),借助云計(jì)算、AI及大數(shù)據(jù)等技術(shù)力量打造了一系列提升甲骨文考釋效率的方案:基于華為云ModelArts一站式AI開發(fā)平臺(tái)等服務(wù),雙方共同打造了甲骨文字形匹配、甲骨文語義推理兩個(gè)AI模型,從字形和語義的角度來輔助甲骨文的研究工作。
字形匹配模型 AI洞悉文字變遷的規(guī)律
甲骨拓片所呈現(xiàn)的內(nèi)容可以理解為一篇記錄遠(yuǎn)古時(shí)期祭祀、征伐、氣象、田游、卜夢(mèng)等活動(dòng)的短文。大至國(guó)家興衰,小至個(gè)人命運(yùn),都能在甲骨拓片中找出絲絲線索。因此,用“一個(gè)文字就是一段歷史”來形容甲骨文一點(diǎn)兒也不夸張?墒牵纯坚尩奈淖,對(duì)應(yīng)的是一段歷史的空白。面對(duì)著穿越數(shù)千年而來的不會(huì)說話的象形文字,考釋工作該從何處著手?
央視紀(jì)錄片《甲骨王朝》視頻畫面
在早期,文字的變遷主要是基于字形逐漸演變的。相鄰朝代中,字形的變化通常有跡可循。沿著文字發(fā)展的脈絡(luò)進(jìn)行字形對(duì)比,是甲骨學(xué)家重要的破譯方法。
央視紀(jì)錄片《甲骨王朝》視頻畫面
為幫助未考釋的甲骨文揭開神秘面紗,莫伯峰教授與華為云AI工程師一起打造了字形匹配模型,通過檢索與單個(gè)甲骨文字符字形相似的金文字符,來幫助實(shí)現(xiàn)甲骨文的破譯。
將大量甲骨文與金文錄入到計(jì)算機(jī)系統(tǒng)后,華為云AI工程師利用神經(jīng)網(wǎng)絡(luò)等技術(shù),訓(xùn)練出幫助識(shí)別甲骨文的字形匹配模型,讓AI掌握從甲骨文到金文再到現(xiàn)代文的文字發(fā)展規(guī)律,并模擬專家的破譯思路。“機(jī)器識(shí)別與人的識(shí)別效果非常接近”,莫伯峰教授這樣說道。同時(shí),模型推理出的關(guān)于甲骨文-金文的匹配結(jié)果,往往能給甲骨學(xué)家們一些關(guān)于字形演變的新思考。
首都師范大學(xué)甲骨文研究中心莫伯峰教授
然而,對(duì)甲骨文考釋而言,能夠從文字相似度的角度來破譯的未釋字?jǐn)?shù)量相對(duì)有限,字形匹配模型的應(yīng)用能解決的問題僅為冰山一角。剩余的“文化密碼”,也許需要一個(gè)全新的破解思路。
語義推理模型 幫助推理文字的AI界“福爾摩斯”
讓AI學(xué)習(xí)專家在古文字考釋中常見的“辭例歸納法”,是該項(xiàng)目中的另一項(xiàng)創(chuàng)新。所謂“辭例歸納”,意即根據(jù)上下文語境推理出某個(gè)字或某詞組的含義。比如當(dāng)我們使用計(jì)算機(jī)和手機(jī)的聯(lián)想輸入法,只要輸入一些內(nèi)容,就能自動(dòng)預(yù)測(cè)接下來可能會(huì)搭配的文字,這種預(yù)測(cè)其實(shí)就是根據(jù)語境和辭例歸納出來的,也就是機(jī)器的“辭例歸納”。
為讓AI與人類一樣具備識(shí)文斷句、上下文理解及推理能力,在模型構(gòu)建環(huán)節(jié),華為云AI工程師以8億字的《四庫全書》作為語料,結(jié)合通假字、同音字等古文規(guī)則,培養(yǎng)人工智能的語感,同時(shí)也能讓人工智能系統(tǒng)化地學(xué)習(xí)漢朝至清乾隆時(shí)期的中國(guó)古典文化。
團(tuán)隊(duì)以已經(jīng)具有成熟釋文文本的戰(zhàn)國(guó)楚竹書《上博簡(jiǎn)》(1-9)中的2103個(gè)字作為測(cè)試對(duì)象,隨機(jī)遮蔽某個(gè)文字,并讓模型預(yù)測(cè)遮蔽處的文字含義。語義推理模型可以在備選字符中為遮蔽處推選出五個(gè)可能的正確選項(xiàng),有效地幫助專家縮窄探索范圍。
央視紀(jì)錄片《甲骨王朝》視頻畫面
為甲骨研究注入新活力 華為云在路上
正確理解一片甲骨刻辭的內(nèi)涵,并不僅僅取決于其中的所有文字是否可識(shí),更重要的是能否讀懂刻辭內(nèi)容。接下來,華為云AI工程師一方面計(jì)劃引入華為云盤古大模型,基于其優(yōu)秀的泛化能力,解決甲骨文研究領(lǐng)域知識(shí)和數(shù)據(jù)不足的瓶頸問題。另一方面計(jì)劃構(gòu)建關(guān)于甲骨文的知識(shí)圖譜,承載既有的研究成果,用圖網(wǎng)絡(luò)的形式展示甲骨拓片所蘊(yùn)藏的豐富信息,從更高維度的視角來推動(dòng)甲骨文的研究。
華為云人工智能領(lǐng)域總裁賈永利表示,新興技術(shù)讓學(xué)界專家得以將人類經(jīng)驗(yàn)與計(jì)算機(jī)自然語言相結(jié)合。通過AI對(duì)甲骨文研究的賦能,早期文明史的探索步伐將邁上新的臺(tái)階,蘊(yùn)藏在珍貴文物中的優(yōu)秀傳統(tǒng)文化將能更好地實(shí)現(xiàn)創(chuàng)新性發(fā)展。
華為云人工智能領(lǐng)域總裁賈永利
未來,華為云將進(jìn)一步攜手各領(lǐng)域?qū)<覍W(xué)者,深入多學(xué)科交叉行業(yè),積極探索更多人工智能的落地形式,為伙伴及開發(fā)者創(chuàng)造無限的可能。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
6月20日立即下載>> 【白皮書】精準(zhǔn)測(cè)量 安全高效——福祿克光伏行業(yè)解決方案
-
7月3日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 大廠紛紛入局,百度、阿里、字節(jié)搶奪Agent話語權(quán)
- 3 深度報(bào)告|中國(guó)AI產(chǎn)業(yè)正在崛起成全球力量,市場(chǎng)潛力和關(guān)鍵挑戰(zhàn)有哪些?
- 4 上海跑出80億超級(jí)獨(dú)角獸:獲上市公司戰(zhàn)投,干人形機(jī)器人
- 5 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 6 下一代入口之戰(zhàn):大廠為何紛紛押注智能體?
- 7 百億AI芯片訂單,瘋狂傾銷中東?
- 8 Robotaxi新消息密集釋放,量產(chǎn)元年誰在領(lǐng)跑?
- 9 格斗大賽出圈!人形機(jī)器人致命短板曝光:頭腦過于簡(jiǎn)單
- 10 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用