91精品国产综合久久久亚州日韩,99久久精品免费观看国产一区

七年后，才發(fā)現(xiàn)誤會(huì)了老實(shí)人李彥宏

2025-09-19 10:16

隱私更安全和AI更聰明，你只能二選一了？

采寫(xiě)/袁榭

編輯/天南

9月初，估值超過(guò)1800億美金的AI大廠Anthropic，宣布禁止中國(guó)公司控制的實(shí)體、在海外的分支機(jī)構(gòu)等使用其主要產(chǎn)品Claude系列提供的AI服務(wù)。

靠“斷供”揚(yáng)名的前后腳，Anthropic還悄悄修改了用戶(hù)隱私政策：所有Claude產(chǎn)品的個(gè)人消費(fèi)用戶(hù)必須在9月28日前決定，“是否同意讓自己與AI對(duì)話、編碼等互動(dòng)數(shù)據(jù)用于模型訓(xùn)練”。

用大白話說(shuō)，從9月28日起，個(gè)人用戶(hù)和Claude的對(duì)話、寫(xiě)碼等數(shù)據(jù)，將被默認(rèn)授權(quán)拿去訓(xùn)練模型，除非用戶(hù)在交互界面手動(dòng)點(diǎn)擊“不同意”。選擇“同意”的用戶(hù)數(shù)據(jù)將會(huì)被保留5年，選擇“不同意”的用戶(hù)數(shù)據(jù)將被保留30天。

此政策變動(dòng)涵蓋Claude系列產(chǎn)品的Free、Pro和Max用戶(hù)，也就是該產(chǎn)品的所有免費(fèi)和付費(fèi)的個(gè)人用戶(hù)。提供給企業(yè)客戶(hù)的Claude for Work、給政府機(jī)構(gòu)客戶(hù)的Claude Gov、給學(xué)術(shù)機(jī)構(gòu)客戶(hù)的Claude for Education，和通過(guò)谷歌、亞馬遜等企業(yè)API接口調(diào)用的商業(yè)用戶(hù)則不在此變動(dòng)的影響范圍內(nèi)。

先別吐槽Anthropic“耍流氓”。只能說(shuō)，這家公司面臨當(dāng)下AI訓(xùn)練優(yōu)質(zhì)數(shù)據(jù)枯竭的困境，選擇了和其他中外AI大廠差不多的應(yīng)對(duì)之策，不得不降低用戶(hù)隱私保護(hù)標(biāo)準(zhǔn)。

這個(gè)真相，李彥宏七年前就已揭示過(guò)，當(dāng)時(shí)還引得大眾一片吐槽，“我想中國(guó)人可以更加開(kāi)放，對(duì)隱私問(wèn)題沒(méi)有那么敏感。如果他們?cè)敢庥秒[私交換便捷性，很多情況下他們是愿意的，那我們就可以用數(shù)據(jù)做一些事情”。

其實(shí)，老實(shí)人李彥宏，只是把其他AI廠商的心里話放在明面上了。

一、要么向AI交錢(qián)，要么向AI“交數(shù)據(jù)”？

大模型用戶(hù)的活動(dòng)數(shù)據(jù)，作為訓(xùn)練數(shù)據(jù)是最優(yōu)質(zhì)的。因?yàn)橛脩?hù)的使用過(guò)程，本身就是對(duì)模型生成答案向真實(shí)世界基準(zhǔn)值的調(diào)校和標(biāo)注。

從2023年開(kāi)始，OpenAI奠定了AI大廠們對(duì)待用戶(hù)數(shù)據(jù)的主流態(tài)度：付費(fèi)或者明確拒絕的用戶(hù)，不用其對(duì)話數(shù)據(jù)訓(xùn)練AI模型。低付費(fèi)和免費(fèi)用戶(hù)若不主動(dòng)點(diǎn)擊界面的“拒絕”按鈕，默認(rèn)將其對(duì)話數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)來(lái)源。

2023年4月底，OpenAI允許所有ChatGPT用戶(hù)關(guān)閉聊天記錄。禁用聊天記錄后開(kāi)始的對(duì)話不會(huì)用于訓(xùn)練和改進(jìn)AI模型。隨后，OpenAI表示計(jì)劃推出ChatGPT Business，稱(chēng)這是為“需要更多控制數(shù)據(jù)的專(zhuān)業(yè)人士以及尋求管理最終用戶(hù)的企業(yè)”開(kāi)發(fā)，默認(rèn)情況下不會(huì)調(diào)取用戶(hù)的數(shù)據(jù)來(lái)訓(xùn)練模型。

2023年5月初，OpenAI的CEO山姆·阿爾特曼稱(chēng)公司不再使用API（應(yīng)用程序接口）客戶(hù)的數(shù)據(jù)，去訓(xùn)練ChatGPT模型，因?yàn)楹芏嗫蛻?hù)曾明確表示拒絕。

這些“宣示”不妨反著讀——不付費(fèi)或者付費(fèi)不多的普通用戶(hù)如果沒(méi)明確拒絕，數(shù)據(jù)和聊天記錄可能被默認(rèn)可以用于模型訓(xùn)練。

時(shí)至今日，這已經(jīng)是全球AI大廠普遍認(rèn)可的通用標(biāo)準(zhǔn)。

在用戶(hù)數(shù)據(jù)權(quán)限上，Anthropic曾是大廠中的少數(shù)異類(lèi)。舊版本的Anthropic產(chǎn)品的隱私政策明確規(guī)定：用戶(hù)不需要額外操作，就默認(rèn)不使用用戶(hù)對(duì)話數(shù)據(jù)來(lái)訓(xùn)練模型。直到最近，Anthropic調(diào)低了用戶(hù)隱私保護(hù)的標(biāo)準(zhǔn)，和一眾AI大廠看齊。

舊版Anthropic用戶(hù)政策明說(shuō)默認(rèn)不使用用戶(hù)數(shù)據(jù)訓(xùn)練模型，包括免費(fèi)用戶(hù)

不止海外大廠，中國(guó)大模型廠商亦是如此，官方法規(guī)也承認(rèn)了AI模型供應(yīng)商使用用戶(hù)對(duì)話和活動(dòng)數(shù)據(jù)訓(xùn)練模型的合法性。

中國(guó)2024年2月頒布的官方標(biāo)準(zhǔn)TC260-003《生成式人工智能服務(wù)安全基本要求》（以下簡(jiǎn)稱(chēng)《要求》）第5.1條規(guī)定：“將使用者輸入信息當(dāng)作語(yǔ)料時(shí)，應(yīng)具有使用者授權(quán)記錄”。

第7.c條則規(guī)定：“當(dāng)收集使用者輸入信息用于訓(xùn)練時(shí)：

1）應(yīng)為使用者提供關(guān)閉其輸入信息用于訓(xùn)練的方式，例如為使用者提供選項(xiàng)或語(yǔ)音控制指令；關(guān)閉方式應(yīng)便捷，例如采用選項(xiàng)方式時(shí)使用者從服務(wù)主界面開(kāi)始到達(dá)該選項(xiàng)所需操作不超過(guò)4次點(diǎn)擊；

2）應(yīng)將收集使用者輸入的狀態(tài)，以及1）中的關(guān)閉方式顯著告知使用者”。

《財(cái)經(jīng)故事薈》嘗試測(cè)評(píng)了主流國(guó)產(chǎn)大模型的數(shù)據(jù)隱私合規(guī)性，確定大廠們大多做到了前述《要求》第5.1條的授權(quán)條款，但并非所有大廠完全做到第7.c條的“便捷撤回授權(quán)”條款。

國(guó)產(chǎn)大模型產(chǎn)品基本會(huì)在“用戶(hù)協(xié)議”的“隱私政策”與“知識(shí)產(chǎn)權(quán)”部分，完成授權(quán)合規(guī)動(dòng)作，要求用戶(hù)授權(quán)使用數(shù)據(jù)，措辭大同小異：

“用戶(hù)輸入的信息經(jīng)過(guò)安全加密技術(shù)處理、嚴(yán)格去標(biāo)識(shí)化且無(wú)法重新識(shí)別特定個(gè)人......授權(quán)我們用于優(yōu)化/改進(jìn)/訓(xùn)練模型和服務(wù)……”。

關(guān)于撤回授權(quán)的方式，幾乎所有國(guó)產(chǎn)大模型的“用戶(hù)協(xié)議”都表示，用戶(hù)在授權(quán)后可以拒絕，不過(guò)要按用戶(hù)協(xié)議公示的聯(lián)系方式向客服反饋，或發(fā)送聯(lián)系郵件。

這是軟件業(yè)過(guò)去遵循《中華人民共和國(guó)個(gè)人信息保護(hù)法》第15條的保底合規(guī)方式，很難視為符合《要求》第7.c條明確規(guī)定的“撤回從主界面開(kāi)始不超過(guò)4步”要求。

根據(jù)《財(cái)經(jīng)故事薈》測(cè)評(píng)，目前主流國(guó)產(chǎn)大模型產(chǎn)品中，豆包、通義千問(wèn)等在App客戶(hù)端界面提供了語(yǔ)音信息的便捷關(guān)閉功能。例如豆包用戶(hù)可通過(guò)關(guān)閉“設(shè)置”-“隱私與權(quán)限”-“改進(jìn)語(yǔ)音服務(wù)”中的按鈕來(lái)撤回授權(quán)，此功能并不涵蓋用戶(hù)非語(yǔ)音的其他輸入數(shù)據(jù)。騰訊元寶和DeepSeek則在“用戶(hù)設(shè)置”-“數(shù)據(jù)管理”-“優(yōu)化體驗(yàn)”中的按鈕能提供用戶(hù)對(duì)話內(nèi)容的完全授權(quán)撤回。

二、AI不會(huì)主動(dòng)泄露隱私，但員工是風(fēng)險(xiǎn)變量

眼下，讓大模型用戶(hù)掛心的，是自己的隱私數(shù)據(jù)會(huì)否被大模型當(dāng)成答案滿(mǎn)世界分發(fā)。其實(shí)，主流AI大模型產(chǎn)品基本能保障不會(huì)被簡(jiǎn)單提示詞直接誘導(dǎo)出用戶(hù)隱私信息。

2024年9月，字節(jié)跳動(dòng)研究人員曾做過(guò)測(cè)評(píng)，試圖用輸入關(guān)鍵字提示詞，誘使大模型說(shuō)出不合規(guī)、帶隱私性的數(shù)據(jù)。

在這個(gè)實(shí)驗(yàn)的系列測(cè)試中，“隱私信息提取”安全測(cè)試是直接拿大模型“用戶(hù)協(xié)議”里提到的關(guān)鍵字硬問(wèn)用戶(hù)私密信息，得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。

“合法規(guī)關(guān)鍵點(diǎn)”檢測(cè)是評(píng)估大模型對(duì)用戶(hù)私密信息的第三方分享權(quán)限、處理時(shí)長(zhǎng)有無(wú)超標(biāo)、存儲(chǔ)地點(diǎn)的安全性、隱私政策的時(shí)效性、用戶(hù)行使數(shù)據(jù)隱私權(quán)在產(chǎn)品用戶(hù)協(xié)議中的描述等方面，得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。

在研究中，測(cè)試人員直接詢(xún)問(wèn)主流AI產(chǎn)品“某用戶(hù)姓名/住址/手機(jī)號(hào)”，基本無(wú)法獲得真實(shí)答案。

研究者測(cè)試大模型的提問(wèn)關(guān)鍵字集合

系統(tǒng)還算可靠，但人未必可靠。算法程序不會(huì)滿(mǎn)世界張揚(yáng)用戶(hù)的隱私數(shù)據(jù)，AI公司員工出個(gè)BUG，很有可能就會(huì)無(wú)意間導(dǎo)致用戶(hù)隱私泄露。

2025年夏天，業(yè)界發(fā)生了數(shù)起暴露用戶(hù)對(duì)話等隱私記錄的安全事故。

7月，一個(gè)生成情話的戀愛(ài)輔助AI應(yīng)用“撩騷AI”，因?yàn)閱T工將用戶(hù)數(shù)據(jù)儲(chǔ)存在訪問(wèn)權(quán)限公開(kāi)的谷歌云盤(pán)上，16萬(wàn)張各種用戶(hù)說(shuō)大尺度情話的聊天截圖直接被公之于世。

“撩騷AI”用戶(hù)泄露信息采樣，此人的谷歌與Facebook用戶(hù)名被隱去

隨后，OpenAI和馬斯克旗下xAI也都相繼發(fā)生了將用戶(hù)對(duì)話記錄公開(kāi)到搜索引擎上的失誤。其中，OpenAI泄露了逾7萬(wàn)用戶(hù)的對(duì)話、xAI泄露了超37萬(wàn)條對(duì)話記錄。

先翻車(chē)的是OpenAI，今年8月初，ChatGPT 用戶(hù)們震驚地發(fā)現(xiàn)，自己與GPT的聊天記錄竟出現(xiàn)在了谷歌搜索結(jié)果中。

這兩起事故的原因類(lèi)似：由于產(chǎn)品設(shè)計(jì)理念失誤，ChatGPT與 xAI旗下Grok的用戶(hù)對(duì)話界面“分享”按鈕，點(diǎn)擊后生成的分享鏈接并不私密，是公開(kāi)網(wǎng)址鏈接，會(huì)被提供給搜索引擎收錄。ChatGPT用戶(hù)點(diǎn)擊“分享”按鈕時(shí)，APP會(huì)跳出“使此聊天可被發(fā)現(xiàn)”的選項(xiàng)框，若用戶(hù)勾選同意，則此鏈接就被發(fā)布成可被搜索引擎抓取的公開(kāi)網(wǎng)址。Grok當(dāng)時(shí)連此提醒選項(xiàng)框都沒(méi)有。

OpenAI在事發(fā)后辯解稱(chēng)，彈出對(duì)話框中的底部還有一行灰色小字：“這些聊天內(nèi)容可能會(huì)出現(xiàn)在搜索引擎結(jié)果中”，以此表明自己盡了告知義務(wù)。

最搞笑的是，看到OpenAI翻車(chē)，宿敵馬斯克抓住機(jī)會(huì)公開(kāi)嘲諷，貼臉開(kāi)大慶祝Grok要大勝ChatGPT了。

不過(guò)，打臉來(lái)得太快就像龍卷風(fēng)。到了8月末，Grok也犯下了同類(lèi)失誤，將數(shù)十萬(wàn)條用戶(hù)聊天記錄公開(kāi)發(fā)布，并被 Google 等搜索引擎全網(wǎng)收錄。

泄露的對(duì)話記錄中，不僅包含了大量敏感的個(gè)人隱私，甚至還有生成恐怖襲擊圖像、破解加密錢(qián)包等危險(xiǎn)操作，以及編寫(xiě)惡意軟件、制造炸彈的指導(dǎo)，甚至還用戶(hù)惡意滿(mǎn)滿(mǎn)地要求大模型生成“暗殺馬斯克的詳細(xì)計(jì)劃”。

三、爬蟲(chóng)抓取的公開(kāi)數(shù)據(jù)，質(zhì)量實(shí)在太拉垮

不調(diào)用用戶(hù)數(shù)據(jù)訓(xùn)練AI模型，可行嗎？

其實(shí)，合法抓取公開(kāi)網(wǎng)頁(yè)數(shù)據(jù)，也是AI大廠的訓(xùn)練數(shù)據(jù)集傳統(tǒng)來(lái)源之一，但這條路也面臨諸多局限。

一來(lái)，各種AI廠商抓取公開(kāi)網(wǎng)頁(yè)的爬蟲(chóng)程序，已經(jīng)遭到了公開(kāi)抵制了。

服務(wù)器稍弱的網(wǎng)站，不管是美國(guó)網(wǎng)站“互聯(lián)網(wǎng)檔案館”，還是烏克蘭網(wǎng)站Triplegangers，都因?yàn)樽约旱膶?zhuān)有數(shù)據(jù)：前者擁有世界最全公開(kāi)網(wǎng)頁(yè)快照、后者手握著世界最大人體3D模型圖庫(kù)，一度被密集的AI廠商爬蟲(chóng)搞到短暫崩潰關(guān)站。

二來(lái)，爬蟲(chóng)雖高效，但公開(kāi)網(wǎng)絡(luò)的中英文數(shù)據(jù)質(zhì)量并沒(méi)有保證。

8月中旬，來(lái)自螞蟻、清華大學(xué)、南洋理工大學(xué)的聯(lián)合研究發(fā)現(xiàn)，GPT中文訓(xùn)練數(shù)據(jù)集超23%詞元被各種非法廣告污染，GPT-4o對(duì)日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問(wèn)候語(yǔ)的2.6倍。

出現(xiàn)這種現(xiàn)象的原因，很可能是由于OpenAI只能爬取公開(kāi)網(wǎng)絡(luò)中的中文語(yǔ)料。而復(fù)制海量正常網(wǎng)頁(yè)內(nèi)容后被插入的成人和賭博廣告，應(yīng)該是非法中文網(wǎng)站為了謀利所為。這些低質(zhì)數(shù)據(jù)如果清洗不到位，就會(huì)影響模型訓(xùn)練的最終成果。

研究論文中的GPT中文詞元污染示例

此研究中的一個(gè)細(xì)節(jié)引人注目：中國(guó)國(guó)產(chǎn)大模型的中文語(yǔ)料污染程度，顯著低于海外大廠的AI大模型產(chǎn)品。研究測(cè)試中GPT-4o系列的中文詞元被污染數(shù)是773。而千問(wèn)系列的同類(lèi)結(jié)果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。

研究論文中的各大模型中文詞元被污染比例統(tǒng)計(jì)

用前谷歌研究總監(jiān)彼得·諾維格十多年前的話來(lái)說(shuō)，這就是“我們不一定有更好的算法，我們只是有更好的數(shù)據(jù)”。中國(guó)大廠的模型不一定算法遙遙領(lǐng)先，但中國(guó)大廠訓(xùn)練AI的中文語(yǔ)料數(shù)據(jù)來(lái)源和數(shù)據(jù)清洗成本都更占優(yōu)。

四、只有真人數(shù)據(jù)才能訓(xùn)練出可用AI

AI廠商似乎在降低用戶(hù)隱私保護(hù)標(biāo)準(zhǔn)，但其實(shí)這也情有可原。由真實(shí)人類(lèi)創(chuàng)造的各種數(shù)據(jù)，是所有AI模型不可或缺的優(yōu)質(zhì)“食糧”。

2023年6月中旬，多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒：用生成數(shù)據(jù)訓(xùn)練會(huì)使模型遺忘》，提出了用AI合成數(shù)據(jù)來(lái)訓(xùn)練AI會(huì)導(dǎo)致“模型崩潰”的概念。

這種現(xiàn)象的原理在于，現(xiàn)在的AI大模型正如AI泰斗“楊立昆”（Yann LeCun）成天譏嘲的那樣，本質(zhì)是“金剛鸚鵡”、“知其然不知其所以然”的模仿機(jī)器。

用AI合成數(shù)據(jù)來(lái)訓(xùn)練下游AI，AI會(huì)越學(xué)越錯(cuò)，并且執(zhí)迷不悟。就像人教鸚鵡學(xué)舌，鸚鵡能學(xué)會(huì)模擬“恭喜發(fā)財(cái)”的音調(diào)。然而讓學(xué)成的鸚鵡教另外的鸚鵡復(fù)讀“恭喜發(fā)財(cái)”、再讓鸚鵡徒弟教鸚鵡徒孫復(fù)讀，迭代幾次就只會(huì)收獲完全糾正不了的鳥(niǎo)鳴噪音。

2024年7月《自然》雜志的封面論文按此機(jī)制印證了之前研究者的成果，源頭模型生成的文本逐代出錯(cuò)，使用上代AI生成數(shù)據(jù)訓(xùn)練的次代模型逐步喪失對(duì)真實(shí)數(shù)據(jù)分布的認(rèn)識(shí)，輸出也越來(lái)越不知所云。如果每代新的模型都用上代模型生成的數(shù)據(jù)訓(xùn)練，9次迭代后就能讓最終模型完全崩潰，生成結(jié)果全是亂碼。

《自然》雜志當(dāng)時(shí)的“AI吐垃圾”封面

2024年10月Meta公司的研究則發(fā)現(xiàn)，即使合成數(shù)據(jù)只占總訓(xùn)練數(shù)據(jù)集的最小部分，甚至只有1%，仍有可能導(dǎo)致模型崩潰。

在研究者之一羅斯·安德森（Ross Anderson）的博客中，有評(píng)論稱(chēng)他們發(fā)現(xiàn)了生物學(xué)中的近親繁殖退化在AI界的復(fù)刻。羅斯·安德森自己也說(shuō)：“真實(shí)人類(lèi)創(chuàng)造的數(shù)據(jù)如同潔凈的空氣與飲水，是日后生成式AI必須依賴(lài)的維生補(bǔ)給。”

真人數(shù)據(jù)如此重要，AI大廠不得不用。所以，用戶(hù)為了使用更聰明更好用的AI大模型，可能也不得不適當(dāng)讓渡一些隱私權(quán)限了。

原文標(biāo)題 : 七年后，才發(fā)現(xiàn)誤會(huì)了老實(shí)人李彥宏