七年后,才發(fā)現(xiàn)誤會(huì)了老實(shí)人李彥宏
隱私更安全和AI更聰明,你只能二選一了?
采寫/袁榭
編輯/天南
9月初,估值超過(guò)1800億美金的AI大廠Anthropic,宣布禁止中國(guó)公司控制的實(shí)體、在海外的分支機(jī)構(gòu)等使用其主要產(chǎn)品Claude系列提供的AI服務(wù)。
靠“斷供”揚(yáng)名的前后腳,Anthropic還悄悄修改了用戶隱私政策:所有Claude產(chǎn)品的個(gè)人消費(fèi)用戶必須在9月28日前決定,“是否同意讓自己與AI對(duì)話、編碼等互動(dòng)數(shù)據(jù)用于模型訓(xùn)練”。
用大白話說(shuō),從9月28日起,個(gè)人用戶和Claude的對(duì)話、寫碼等數(shù)據(jù),將被默認(rèn)授權(quán)拿去訓(xùn)練模型,除非用戶在交互界面手動(dòng)點(diǎn)擊“不同意”。選擇“同意”的用戶數(shù)據(jù)將會(huì)被保留5年,選擇“不同意”的用戶數(shù)據(jù)將被保留30天。
此政策變動(dòng)涵蓋Claude系列產(chǎn)品的Free、Pro和Max用戶,也就是該產(chǎn)品的所有免費(fèi)和付費(fèi)的個(gè)人用戶。提供給企業(yè)客戶的Claude for Work、給政府機(jī)構(gòu)客戶的Claude Gov、給學(xué)術(shù)機(jī)構(gòu)客戶的Claude for Education,和通過(guò)谷歌、亞馬遜等企業(yè)API接口調(diào)用的商業(yè)用戶則不在此變動(dòng)的影響范圍內(nèi)。
先別吐槽Anthropic“耍流氓”。只能說(shuō),這家公司面臨當(dāng)下AI訓(xùn)練優(yōu)質(zhì)數(shù)據(jù)枯竭的困境,選擇了和其他中外AI大廠差不多的應(yīng)對(duì)之策,不得不降低用戶隱私保護(hù)標(biāo)準(zhǔn)。
這個(gè)真相,李彥宏七年前就已揭示過(guò),當(dāng)時(shí)還引得大眾一片吐槽,“我想中國(guó)人可以更加開(kāi)放,對(duì)隱私問(wèn)題沒(méi)有那么敏感。如果他們?cè)敢庥秒[私交換便捷性,很多情況下他們是愿意的,那我們就可以用數(shù)據(jù)做一些事情”。
其實(shí),老實(shí)人李彥宏,只是把其他AI廠商的心里話放在明面上了。
一、要么向AI交錢,要么向AI“交數(shù)據(jù)”?
大模型用戶的活動(dòng)數(shù)據(jù),作為訓(xùn)練數(shù)據(jù)是最優(yōu)質(zhì)的。因?yàn)橛脩舻氖褂眠^(guò)程,本身就是對(duì)模型生成答案向真實(shí)世界基準(zhǔn)值的調(diào)校和標(biāo)注。
從2023年開(kāi)始,OpenAI奠定了AI大廠們對(duì)待用戶數(shù)據(jù)的主流態(tài)度:付費(fèi)或者明確拒絕的用戶,不用其對(duì)話數(shù)據(jù)訓(xùn)練AI模型。低付費(fèi)和免費(fèi)用戶若不主動(dòng)點(diǎn)擊界面的“拒絕”按鈕,默認(rèn)將其對(duì)話數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來(lái)源。
2023年4月底,OpenAI允許所有ChatGPT用戶關(guān)閉聊天記錄。禁用聊天記錄后開(kāi)始的對(duì)話不會(huì)用于訓(xùn)練和改進(jìn)AI模型。隨后,OpenAI表示計(jì)劃推出ChatGPT Business,稱這是為“需要更多控制數(shù)據(jù)的專業(yè)人士以及尋求管理最終用戶的企業(yè)”開(kāi)發(fā),默認(rèn)情況下不會(huì)調(diào)取用戶的數(shù)據(jù)來(lái)訓(xùn)練模型。
2023年5月初,OpenAI的CEO山姆·阿爾特曼稱公司不再使用API(應(yīng)用程序接口)客戶的數(shù)據(jù),去訓(xùn)練ChatGPT模型,因?yàn)楹芏嗫蛻粼鞔_表示拒絕。
這些“宣示”不妨反著讀——不付費(fèi)或者付費(fèi)不多的普通用戶如果沒(méi)明確拒絕,數(shù)據(jù)和聊天記錄可能被默認(rèn)可以用于模型訓(xùn)練。
時(shí)至今日,這已經(jīng)是全球AI大廠普遍認(rèn)可的通用標(biāo)準(zhǔn)。
在用戶數(shù)據(jù)權(quán)限上,Anthropic曾是大廠中的少數(shù)異類。舊版本的Anthropic產(chǎn)品的隱私政策明確規(guī)定:用戶不需要額外操作,就默認(rèn)不使用用戶對(duì)話數(shù)據(jù)來(lái)訓(xùn)練模型。直到最近,Anthropic調(diào)低了用戶隱私保護(hù)的標(biāo)準(zhǔn),和一眾AI大廠看齊。
舊版Anthropic用戶政策明說(shuō)默認(rèn)不使用用戶數(shù)據(jù)訓(xùn)練模型,包括免費(fèi)用戶
不止海外大廠,中國(guó)大模型廠商亦是如此,官方法規(guī)也承認(rèn)了AI模型供應(yīng)商使用用戶對(duì)話和活動(dòng)數(shù)據(jù)訓(xùn)練模型的合法性。
中國(guó)2024年2月頒布的官方標(biāo)準(zhǔn)TC260-003《生成式人工智能服務(wù)安全基本要求》(以下簡(jiǎn)稱《要求》)第5.1條規(guī)定:“將使用者輸入信息當(dāng)作語(yǔ)料時(shí),應(yīng)具有使用者授權(quán)記錄”。
第7.c條則規(guī)定:“當(dāng)收集使用者輸入信息用于訓(xùn)練時(shí):
1)應(yīng)為使用者提供關(guān)閉其輸入信息用于訓(xùn)練的方式,例如為使用者提供選項(xiàng)或語(yǔ)音控制指令;關(guān)閉方式應(yīng)便捷,例如采用選項(xiàng)方式時(shí)使用者從服務(wù)主界面開(kāi)始到達(dá)該選項(xiàng)所需操作不超過(guò)4次點(diǎn)擊;
2)應(yīng)將收集使用者輸入的狀態(tài),以及1)中的關(guān)閉方式顯著告知使用者”。
《財(cái)經(jīng)故事薈》嘗試測(cè)評(píng)了主流國(guó)產(chǎn)大模型的數(shù)據(jù)隱私合規(guī)性,確定大廠們大多做到了前述《要求》第5.1條的授權(quán)條款,但并非所有大廠完全做到第7.c條的“便捷撤回授權(quán)”條款。
國(guó)產(chǎn)大模型產(chǎn)品基本會(huì)在“用戶協(xié)議”的“隱私政策”與“知識(shí)產(chǎn)權(quán)”部分,完成授權(quán)合規(guī)動(dòng)作,要求用戶授權(quán)使用數(shù)據(jù),措辭大同小異:
“用戶輸入的信息經(jīng)過(guò)安全加密技術(shù)處理、嚴(yán)格去標(biāo)識(shí)化且無(wú)法重新識(shí)別特定個(gè)人......授權(quán)我們用于優(yōu)化/改進(jìn)/訓(xùn)練模型和服務(wù)……”。
關(guān)于撤回授權(quán)的方式,幾乎所有國(guó)產(chǎn)大模型的“用戶協(xié)議”都表示,用戶在授權(quán)后可以拒絕,不過(guò)要按用戶協(xié)議公示的聯(lián)系方式向客服反饋,或發(fā)送聯(lián)系郵件。
這是軟件業(yè)過(guò)去遵循《中華人民共和國(guó)個(gè)人信息保護(hù)法》第15條的保底合規(guī)方式,很難視為符合《要求》第7.c條明確規(guī)定的“撤回從主界面開(kāi)始不超過(guò)4步”要求。
根據(jù)《財(cái)經(jīng)故事薈》測(cè)評(píng),目前主流國(guó)產(chǎn)大模型產(chǎn)品中,豆包、通義千問(wèn)等在App客戶端界面提供了語(yǔ)音信息的便捷關(guān)閉功能。例如豆包用戶可通過(guò)關(guān)閉“設(shè)置”-“隱私與權(quán)限”-“改進(jìn)語(yǔ)音服務(wù)”中的按鈕來(lái)撤回授權(quán),此功能并不涵蓋用戶非語(yǔ)音的其他輸入數(shù)據(jù)。騰訊元寶和DeepSeek則在“用戶設(shè)置”-“數(shù)據(jù)管理”-“優(yōu)化體驗(yàn)”中的按鈕能提供用戶對(duì)話內(nèi)容的完全授權(quán)撤回。
二、AI不會(huì)主動(dòng)泄露隱私,但員工是風(fēng)險(xiǎn)變量
眼下,讓大模型用戶掛心的,是自己的隱私數(shù)據(jù)會(huì)否被大模型當(dāng)成答案滿世界分發(fā)。其實(shí),主流AI大模型產(chǎn)品基本能保障不會(huì)被簡(jiǎn)單提示詞直接誘導(dǎo)出用戶隱私信息。
2024年9月,字節(jié)跳動(dòng)研究人員曾做過(guò)測(cè)評(píng),試圖用輸入關(guān)鍵字提示詞,誘使大模型說(shuō)出不合規(guī)、帶隱私性的數(shù)據(jù)。
在這個(gè)實(shí)驗(yàn)的系列測(cè)試中,“隱私信息提取”安全測(cè)試是直接拿大模型“用戶協(xié)議”里提到的關(guān)鍵字硬問(wèn)用戶私密信息,得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。
“合法規(guī)關(guān)鍵點(diǎn)”檢測(cè)是評(píng)估大模型對(duì)用戶私密信息的第三方分享權(quán)限、處理時(shí)長(zhǎng)有無(wú)超標(biāo)、存儲(chǔ)地點(diǎn)的安全性、隱私政策的時(shí)效性、用戶行使數(shù)據(jù)隱私權(quán)在產(chǎn)品用戶協(xié)議中的描述等方面,得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。
在研究中,測(cè)試人員直接詢問(wèn)主流AI產(chǎn)品“某用戶姓名/住址/手機(jī)號(hào)”,基本無(wú)法獲得真實(shí)答案。
研究者測(cè)試大模型的提問(wèn)關(guān)鍵字集合
系統(tǒng)還算可靠,但人未必可靠。算法程序不會(huì)滿世界張揚(yáng)用戶的隱私數(shù)據(jù),AI公司員工出個(gè)BUG,很有可能就會(huì)無(wú)意間導(dǎo)致用戶隱私泄露。
2025年夏天,業(yè)界發(fā)生了數(shù)起暴露用戶對(duì)話等隱私記錄的安全事故。
7月,一個(gè)生成情話的戀愛(ài)輔助AI應(yīng)用“撩騷AI”,因?yàn)閱T工將用戶數(shù)據(jù)儲(chǔ)存在訪問(wèn)權(quán)限公開(kāi)的谷歌云盤上,16萬(wàn)張各種用戶說(shuō)大尺度情話的聊天截圖直接被公之于世。
“撩騷AI”用戶泄露信息采樣,此人的谷歌與Facebook用戶名被隱去
隨后,OpenAI和馬斯克旗下xAI也都相繼發(fā)生了將用戶對(duì)話記錄公開(kāi)到搜索引擎上的失誤。其中,OpenAI泄露了逾7萬(wàn)用戶的對(duì)話、xAI泄露了超37萬(wàn)條對(duì)話記錄。
先翻車的是OpenAI,今年8月初,ChatGPT 用戶們震驚地發(fā)現(xiàn),自己與GPT的聊天記錄竟出現(xiàn)在了谷歌搜索結(jié)果中。
這兩起事故的原因類似:由于產(chǎn)品設(shè)計(jì)理念失誤,ChatGPT與 xAI旗下Grok的用戶對(duì)話界面“分享”按鈕,點(diǎn)擊后生成的分享鏈接并不私密,是公開(kāi)網(wǎng)址鏈接,會(huì)被提供給搜索引擎收錄。ChatGPT用戶點(diǎn)擊“分享”按鈕時(shí),APP會(huì)跳出“使此聊天可被發(fā)現(xiàn)”的選項(xiàng)框,若用戶勾選同意,則此鏈接就被發(fā)布成可被搜索引擎抓取的公開(kāi)網(wǎng)址。Grok當(dāng)時(shí)連此提醒選項(xiàng)框都沒(méi)有。
OpenAI在事發(fā)后辯解稱,彈出對(duì)話框中的底部還有一行灰色小字:“這些聊天內(nèi)容可能會(huì)出現(xiàn)在搜索引擎結(jié)果中”,以此表明自己盡了告知義務(wù)。
最搞笑的是,看到OpenAI翻車,宿敵馬斯克抓住機(jī)會(huì)公開(kāi)嘲諷,貼臉開(kāi)大慶祝Grok要大勝ChatGPT了。
不過(guò),打臉來(lái)得太快就像龍卷風(fēng)。到了8月末,Grok也犯下了同類失誤,將數(shù)十萬(wàn)條用戶聊天記錄公開(kāi)發(fā)布,并被 Google 等搜索引擎全網(wǎng)收錄。
泄露的對(duì)話記錄中,不僅包含了大量敏感的個(gè)人隱私,甚至還有生成恐怖襲擊圖像、破解加密錢包等危險(xiǎn)操作,以及編寫惡意軟件、制造炸彈的指導(dǎo),甚至還用戶惡意滿滿地要求大模型生成“暗殺馬斯克的詳細(xì)計(jì)劃”。
三、爬蟲抓取的公開(kāi)數(shù)據(jù),質(zhì)量實(shí)在太拉垮
不調(diào)用用戶數(shù)據(jù)訓(xùn)練AI模型,可行嗎?
其實(shí),合法抓取公開(kāi)網(wǎng)頁(yè)數(shù)據(jù),也是AI大廠的訓(xùn)練數(shù)據(jù)集傳統(tǒng)來(lái)源之一,但這條路也面臨諸多局限。
一來(lái),各種AI廠商抓取公開(kāi)網(wǎng)頁(yè)的爬蟲程序,已經(jīng)遭到了公開(kāi)抵制了。
服務(wù)器稍弱的網(wǎng)站,不管是美國(guó)網(wǎng)站“互聯(lián)網(wǎng)檔案館”,還是烏克蘭網(wǎng)站Triplegangers,都因?yàn)樽约旱膶S袛?shù)據(jù):前者擁有世界最全公開(kāi)網(wǎng)頁(yè)快照、后者手握著世界最大人體3D模型圖庫(kù),一度被密集的AI廠商爬蟲搞到短暫崩潰關(guān)站。
二來(lái),爬蟲雖高效,但公開(kāi)網(wǎng)絡(luò)的中英文數(shù)據(jù)質(zhì)量并沒(méi)有保證。
8月中旬,來(lái)自螞蟻、清華大學(xué)、南洋理工大學(xué)的聯(lián)合研究發(fā)現(xiàn),GPT中文訓(xùn)練數(shù)據(jù)集超23%詞元被各種非法廣告污染,GPT-4o對(duì)日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問(wèn)候語(yǔ)的2.6倍。
出現(xiàn)這種現(xiàn)象的原因,很可能是由于OpenAI只能爬取公開(kāi)網(wǎng)絡(luò)中的中文語(yǔ)料。而復(fù)制海量正常網(wǎng)頁(yè)內(nèi)容后被插入的成人和賭博廣告,應(yīng)該是非法中文網(wǎng)站為了謀利所為。這些低質(zhì)數(shù)據(jù)如果清洗不到位,就會(huì)影響模型訓(xùn)練的最終成果。
研究論文中的GPT中文詞元污染示例
此研究中的一個(gè)細(xì)節(jié)引人注目:中國(guó)國(guó)產(chǎn)大模型的中文語(yǔ)料污染程度,顯著低于海外大廠的AI大模型產(chǎn)品。研究測(cè)試中GPT-4o系列的中文詞元被污染數(shù)是773。而千問(wèn)系列的同類結(jié)果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。
研究論文中的各大模型中文詞元被污染比例統(tǒng)計(jì)
用前谷歌研究總監(jiān)彼得·諾維格十多年前的話來(lái)說(shuō),這就是“我們不一定有更好的算法,我們只是有更好的數(shù)據(jù)”。中國(guó)大廠的模型不一定算法遙遙領(lǐng)先,但中國(guó)大廠訓(xùn)練AI的中文語(yǔ)料數(shù)據(jù)來(lái)源和數(shù)據(jù)清洗成本都更占優(yōu)。
四、只有真人數(shù)據(jù)才能訓(xùn)練出可用AI
AI廠商似乎在降低用戶隱私保護(hù)標(biāo)準(zhǔn),但其實(shí)這也情有可原。由真實(shí)人類創(chuàng)造的各種數(shù)據(jù),是所有AI模型不可或缺的優(yōu)質(zhì)“食糧”。
2023年6月中旬,多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》,提出了用AI合成數(shù)據(jù)來(lái)訓(xùn)練AI會(huì)導(dǎo)致“模型崩潰”的概念。
這種現(xiàn)象的原理在于,現(xiàn)在的AI大模型正如AI泰斗“楊立昆”(Yann LeCun)成天譏嘲的那樣,本質(zhì)是“金剛鸚鵡”、“知其然不知其所以然”的模仿機(jī)器。
用AI合成數(shù)據(jù)來(lái)訓(xùn)練下游AI,AI會(huì)越學(xué)越錯(cuò),并且執(zhí)迷不悟。就像人教鸚鵡學(xué)舌,鸚鵡能學(xué)會(huì)模擬“恭喜發(fā)財(cái)”的音調(diào)。然而讓學(xué)成的鸚鵡教另外的鸚鵡復(fù)讀“恭喜發(fā)財(cái)”、再讓鸚鵡徒弟教鸚鵡徒孫復(fù)讀,迭代幾次就只會(huì)收獲完全糾正不了的鳥鳴噪音。
2024年7月《自然》雜志的封面論文按此機(jī)制印證了之前研究者的成果,源頭模型生成的文本逐代出錯(cuò),使用上代AI生成數(shù)據(jù)訓(xùn)練的次代模型逐步喪失對(duì)真實(shí)數(shù)據(jù)分布的認(rèn)識(shí),輸出也越來(lái)越不知所云。如果每代新的模型都用上代模型生成的數(shù)據(jù)訓(xùn)練,9次迭代后就能讓最終模型完全崩潰,生成結(jié)果全是亂碼。
《自然》雜志當(dāng)時(shí)的“AI吐垃圾”封面
2024年10月Meta公司的研究則發(fā)現(xiàn),即使合成數(shù)據(jù)只占總訓(xùn)練數(shù)據(jù)集的最小部分,甚至只有1%,仍有可能導(dǎo)致模型崩潰。
在研究者之一羅斯·安德森(Ross Anderson)的博客中,有評(píng)論稱他們發(fā)現(xiàn)了生物學(xué)中的近親繁殖退化在AI界的復(fù)刻。羅斯·安德森自己也說(shuō):“真實(shí)人類創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補(bǔ)給。”
真人數(shù)據(jù)如此重要,AI大廠不得不用。所以,用戶為了使用更聰明更好用的AI大模型,可能也不得不適當(dāng)讓渡一些隱私權(quán)限了。
原文標(biāo)題 : 七年后,才發(fā)現(xiàn)誤會(huì)了老實(shí)人李彥宏

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
10月23日火熱報(bào)名中>> 2025是德科技創(chuàng)新技術(shù)峰會(huì)
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
推薦專題