不會(huì)中英互譯,百度文心一言變“中文差生”
作者 趙翔 姜睿盈
編輯 覃拓近期,文心一言“套皮”爭(zhēng)議愈演愈烈。
一名業(yè)內(nèi)人士告訴《橡果商業(yè)評(píng)論》,所謂“套皮”,應(yīng)該是指文心一言采用中英互譯方式套用開(kāi)源模型、采用開(kāi)源數(shù)據(jù)加入訓(xùn)練的行為。據(jù)百度發(fā)布的相關(guān)論文顯示,文心一言“文生圖”功能在訓(xùn)練時(shí),使用百度翻譯進(jìn)行中英互譯。
事實(shí)上,百度翻譯目前在行業(yè)早已掉隊(duì),機(jī)器翻譯效果相比其他人工智能公司差距很大。
《橡果商業(yè)評(píng)論》將百度翻譯與訊飛翻譯、騰訊翻譯、網(wǎng)易翻譯對(duì)比發(fā)現(xiàn),百度翻譯對(duì)名詞短語(yǔ)的翻譯,存在多義、歧義等問(wèn)題。上述業(yè)內(nèi)人士表示:如果翻譯錯(cuò)誤,也會(huì)直接影響生成模型的效果。但翻譯是中國(guó)AI的必經(jīng)之路。
截至2021年,全球排名前1000萬(wàn)個(gè)網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅為1.4%。中國(guó)AI需要依賴大量的英文數(shù)據(jù)集訓(xùn)練。
翻譯成為文心一言面前的一座“大山”。 面對(duì)技術(shù)問(wèn)題,百度不僅從未正面回應(yīng),還不斷公開(kāi)強(qiáng)調(diào)“國(guó)貨”需要時(shí)間。如此發(fā)言,似乎是在維護(hù)李彥宏“文心一言中文優(yōu)等生”的自尊心。文心一言受困于中英互譯,中國(guó)AI未來(lái)在哪里?
1
文心一言“套皮”疑云 自畫像竟是“白種男性”?
3月22日,博主@劉大可先生 爆料,文心一言“套皮、畫皮、造假”。@劉大可先生表示,若使用文心一言做圖,它會(huì)將中文翻譯為英文,再使用國(guó)外開(kāi)源的AI文生圖模型Stable Diffusion生成圖畫。Stable Diffusion與OpenAI的Dall-E 2相似,都是AI文生圖模型,由英國(guó)公司Stability AI在2022年8月發(fā)布。
以“一可以豆子”為例,這句話在漢語(yǔ)中不是完整語(yǔ)言;若使用“百度翻譯”直翻英語(yǔ),結(jié)果為“One can beans”。
“可以”被翻譯成“can”,根據(jù)上下文,“can”被理解為量詞,整句意為“一罐豆子”。
所以,讓文心一言制圖“一可以豆子”,就會(huì)得到“一罐豆子”的圖片。
這并非個(gè)例:1. “牛肉可以”使用“百度翻譯”會(huì)得到“Beef can”;
2. “一冰箱可以”為“A refrigerator can ”。
3. “牛奶路”對(duì)應(yīng)翻譯“Milk Road”;相應(yīng)的,文心一言也會(huì)分別生成“一罐牛肉”“裝滿罐頭的冰箱”“銀河”的圖片。
“直翻”導(dǎo)致錯(cuò)誤之外,一詞多義的單詞們也會(huì)讓文心一言制圖“抓瞎”:
1.“起重機(jī)”“百度翻譯”為“Crane”;
2.“土耳其”為“Turkey”。
“Crane”更常用的意思為“鶴”,“Turkey”也有“火雞”之意,所以文心一言會(huì)生成“鶴頭”“火雞”的圖片。
此外,若讓文心一言生成“人像”,不加“中國(guó)”關(guān)鍵字,畫出的都是“白種人”。
3月16日,《橡果商業(yè)評(píng)論》讓文心一言畫“自畫像”,卻得到一個(gè)“白人男性”的圖片。
3月23日,百度發(fā)聲明稱“不傳謠不信謠”,文心一言“文生圖”能力來(lái)自文心跨模態(tài)大模型ERNIE-ViLG。
2
“豬隊(duì)友”百度翻譯讓文心一言卷入“套皮”風(fēng)波
文心一言有不一樣的答案。3月23日,據(jù)《澎湃新聞》報(bào)道,在對(duì)話文心一言,詢問(wèn)其是否采用Stable Diffusion時(shí),文心一言不僅承認(rèn)使用Stable Diffusion,還承認(rèn)使用Transformer、GRU等深度學(xué)習(xí)模型來(lái)生成圖像。
事實(shí)上,這并不代表文心一言“文生圖”存在所謂“套皮”。百度官方介紹,文心一言“文生圖”功能來(lái)自ERNIE-ViLG 2.0。
據(jù)百度發(fā)布論文《ERNIE-ViLG 2.0:用知識(shí)增強(qiáng)型混合去噪專家改進(jìn)文本到圖像的擴(kuò)散模型》顯示,ERNIE-ViLG 2.0的訓(xùn)練數(shù)據(jù)由1.7億圖文對(duì)組成,包括網(wǎng)絡(luò)公開(kāi)的英文數(shù)據(jù)集和百度內(nèi)部中文數(shù)據(jù)集。
然而,ERNIE-ViLG 2.0訓(xùn)練階段,部分訓(xùn)練數(shù)據(jù)里的中、英文翻譯由百度翻譯自動(dòng)翻譯。
業(yè)內(nèi)人士唐喆(化名)告訴《橡果商業(yè)評(píng)論》,百度翻譯目前已經(jīng)掉隊(duì),機(jī)器翻譯效果相比其他人工智能公司存在很大差距。
特別是名詞短語(yǔ)翻譯,存在多義、歧義等問(wèn)題,如果翻譯錯(cuò)誤,也會(huì)直接影響生成模型的結(jié)果。
以上述“牛肉可以”為例。
《橡果商業(yè)評(píng)論》用百度翻譯結(jié)果為“Beef can”(牛肉罐頭);騰訊翻譯為“Beef is fine”(牛肉不錯(cuò));網(wǎng)易翻譯為“Beef can”(牛肉罐頭);訊飛翻譯結(jié)果為“Beef is OK”(牛肉不錯(cuò))。
不同翻譯軟件中,只有騰訊翻譯、訊飛翻譯回答正確。唐喆則舉例近期最火的“虎頭虎腦的胖小子”。
百度翻譯為“Big fat kid with a tiger's head and brain”(長(zhǎng)虎頭的胖子),網(wǎng)易翻譯、騰訊翻譯也類似。
訊飛翻譯結(jié)果相對(duì)接近,為“A tiger-headed fat boy”(虎頭虎腦胖小子);唐喆解釋,文心一言作畫能力強(qiáng)調(diào)輸入文本內(nèi)容的實(shí)體信息,例如“虎頭虎腦的胖小子”,會(huì)把“虎頭”當(dāng)做單獨(dú)的實(shí)體。
這不僅忽略了整體句子級(jí)別的語(yǔ)義理解,也與文心一言發(fā)布時(shí)提到“中文理解能力強(qiáng)”完全不符。
3
“差生”偽裝“優(yōu)等生”李彥宏的自尊心游戲?
在3月16日的文心一言發(fā)布會(huì)上,百度CEO李彥宏用提前錄制好的文心一言演示視頻,解釋其中文理解能力。
例如向文心一言提出“洛陽(yáng)紙貴”“藏頭詩(shī)”等問(wèn)題。
最終李彥宏的結(jié)論是,文心一言是扎根中國(guó)市場(chǎng)的大語(yǔ)言模型,具備中文領(lǐng)域最先進(jìn)的自然語(yǔ)言處理能力。
目前看來(lái),文心一言距離李彥宏所言“中文優(yōu)等生”相差甚遠(yuǎn)。
唐喆認(rèn)為,百度采用中英互譯方式,無(wú)論是套用開(kāi)源模型還是采用開(kāi)源數(shù)據(jù)加入訓(xùn)練,都應(yīng)該在中文語(yǔ)言理解和中英互譯上多加注意。
令人遺憾的是,文心一言技術(shù)出現(xiàn)問(wèn)題,面對(duì)質(zhì)疑,百度并未就此問(wèn)題進(jìn)行公開(kāi)的專業(yè)解答。
還以“需要時(shí)間學(xué)習(xí)和成長(zhǎng)”“給自研產(chǎn)品信息、時(shí)間”為由,消耗著國(guó)內(nèi)用戶的耐心與信心。
另一方面,當(dāng)文心一言答案被指出現(xiàn)問(wèn)題,答案就會(huì)“消失”。
3月23日下午,《橡果商業(yè)評(píng)論》使用文心一言發(fā)現(xiàn),與“牛肉可以”類似的“XX可以”問(wèn)題,文心一言答案疑被“屏蔽”。
直到當(dāng)日晚間,答案才再次恢復(fù),面對(duì)“牛肉可以”的指令,文心一言畫出的不再是“牛肉罐頭”,而是“一盤牛肉”。
這似乎是“升級(jí)迭代”?但繼續(xù)提問(wèn)“牛奶路”(Milk Road),生成的圖片依然是“銀河”(the Milky Way)。
如此操作,并不像是百度口中“學(xué)習(xí)能力提升”,更像是真人進(jìn)行的屏蔽、修正。即便如此,李彥宏在媒體專訪時(shí)也認(rèn)為,文心一言能在兩個(gè)月后追趕到今年一月份的ChatGPT。
唐喆認(rèn)為,從用戶視角來(lái)看,文心一言和ChatGPT差距不小。
ChatGPT基本可以滿足用戶的訴求,反觀文心一言,作圖能力理解能力雙雙“喪失”,“從畫圖結(jié)果來(lái)看,文心一言更適合玩看圖猜成語(yǔ)的游戲。”
4
文心一言受困于中英互譯中國(guó)難有ChatGPT?
文心一言距離ChatGPT還有多遠(yuǎn)?
唐喆認(rèn)為,文心一言在知識(shí)問(wèn)答、詞典、文獻(xiàn)檢索等方面回答基本過(guò)關(guān),這是發(fā)揮百度自有搜索引擎的優(yōu)勢(shì)。
但在數(shù)學(xué)、代碼、歸納推理、翻譯等方面,被ChatGPT甩在身后。
唐喆曾多次詢問(wèn)中國(guó)特有的農(nóng)歷,即便百度對(duì)文心一言進(jìn)行過(guò)多次修正,文心一言也依然沒(méi)有給出正確答案。
對(duì)于一些常見(jiàn)的親屬關(guān)系、推理選擇,文心一言展示的推理邏輯看似很有道理,實(shí)際是在一本正經(jīng)地胡說(shuō)。
唐喆總結(jié):
1.文心一言在中文寫作、語(yǔ)法分析上,分析精度和準(zhǔn)確性均不高;2.文本生成、改寫、作文等,雖然會(huì)有基本格式框架在,但不能仔細(xì)閱讀內(nèi)容,內(nèi)容精細(xì)度不如GPT詳實(shí)和細(xì)膩。3.文心一言在海量信息的參數(shù)化全量記憶類型問(wèn)題,及一些復(fù)雜的邏輯思維推理類問(wèn)題的回復(fù)上,不符合用戶原始意圖的表現(xiàn)居多。
其次,對(duì)于安全類敏感類話題,文心一言控制的十分謹(jǐn)慎。
唐喆表示,文心一言的敏感詞范圍較寬泛,處理邏輯也略顯粗暴。
例如,若用戶A問(wèn)出帶有敏感詞的問(wèn)題,文心一言為防止A繼續(xù)發(fā)文,會(huì)強(qiáng)制關(guān)閉A的對(duì)話框。在此類問(wèn)題上,ChatGPT相對(duì)更加客觀,會(huì)增加正向引導(dǎo)和安撫。
唐喆認(rèn)為,通過(guò)上述例子可見(jiàn),百度內(nèi)部細(xì)化、分層不夠,處理不靈活。
事實(shí)上,對(duì)文心一言來(lái)說(shuō),現(xiàn)階段最重要的事,是尋找百度翻譯替代品。
有業(yè)內(nèi)人士表示,雖然簡(jiǎn)體中文互聯(lián)網(wǎng)用戶和英文互聯(lián)網(wǎng)用戶規(guī)模相當(dāng),但截至2021年,全球排名前1000萬(wàn)的網(wǎng)站中,英文內(nèi)容占比60.4%,中文內(nèi)容占比僅為1.4%。中國(guó)AI需要依賴大量的英文數(shù)據(jù)集訓(xùn)練,否則會(huì)吃虧。
文心一言若想成為“中國(guó)版”ChatGPT,需做好第一步中英互譯。
在文心一言“文生圖”還在“看圖猜成語(yǔ)”之時(shí),據(jù)最新消息,OpenAI宣布ChatGPT支持接入第三方插件,并上架11個(gè)插件。
其中Browsing插件支持ChatGPT實(shí)時(shí)搜索互聯(lián)網(wǎng)內(nèi)容。
解除“封印”的ChatGPT將涌現(xiàn)無(wú)數(shù)可能性。
毫無(wú)疑問(wèn),全能AI助理時(shí)代即將到來(lái)。
中國(guó)的ChatGPT在哪?
原文標(biāo)題 : 不會(huì)中英互譯,百度文心一言變“中文差生”

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書(shū)】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
-
10 月之暗面,絕地反擊
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開(kāi)始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來(lái)商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開(kāi)成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?