實(shí)測(cè)7款主流大模型,隱私裸奔成通病
“互聯(lián)網(wǎng)社交時(shí)代被嚴(yán)格管控的數(shù)據(jù)獲取行為,如今在AI時(shí)代中卻成了一種常態(tài)。更好的使用體驗(yàn),是收集用戶隱私的理由嗎?”
@科技新知 原創(chuàng)
作者丨思原 編輯丨蕨影
在AI時(shí)代,用戶輸入的信息不再僅僅屬于個(gè)人隱私,而是成為了大模型進(jìn)步的“墊腳石”。
“幫我做一份PPT”“幫我做一版新春海報(bào)”“幫我總結(jié)一下文檔內(nèi)容”,大模型火了以后,用AI工具提效已經(jīng)成了白領(lǐng)們工作的日常,甚至不少人開始用AI叫外賣、訂酒店。
然而,這種數(shù)據(jù)收集和使用的方式也帶來了巨大的隱私風(fēng)險(xiǎn)。很多用戶忽視了數(shù)字化時(shí)代,使用數(shù)字化技術(shù)、工具的一個(gè)主要問題,就是透明度的缺失,他們不清楚這些AI工具的數(shù)據(jù)如何被收集、處理和存儲(chǔ),不確定數(shù)據(jù)是否被濫用或泄露。
今年3月,OpenAI承認(rèn)ChatGPT存在漏洞,導(dǎo)致部分用戶的歷史聊天記錄被泄露。此事件引發(fā)了公眾對(duì)大模型數(shù)據(jù)安全和個(gè)人隱私保護(hù)的擔(dān)憂。除了ChatGPT數(shù)據(jù)泄露事件,Meta的AI模型也因侵犯版權(quán)而飽受爭(zhēng)議。今年4月,美國(guó)作家、藝術(shù)家等組織指控Meta的AI模型盜用他們的作品進(jìn)行訓(xùn)練,侵犯其版權(quán)。
同樣,在國(guó)內(nèi)也發(fā)生了類似的事件。最近,愛奇藝與“大模型六小虎”之一的稀宇科技(MiniMax)因著作權(quán)糾紛引發(fā)關(guān)注。愛奇藝指控海螺AI未經(jīng)許可使用其版權(quán)素材訓(xùn)練模型,此案為國(guó)內(nèi)首例視頻平臺(tái)對(duì)AI視頻大模型的侵權(quán)訴訟。
這些事件引發(fā)了外界對(duì)大模型訓(xùn)練數(shù)據(jù)來源和版權(quán)問題的關(guān)注,說明AI技術(shù)的發(fā)展需要建立在用戶隱私保護(hù)的基礎(chǔ)之上。
為了解當(dāng)前國(guó)產(chǎn)大模型信息披露透明度情況,「科技新知」選取了豆包、文心一言、kimi、騰訊混元、星火大模型、通義千文、快手可靈這7款市面主流大模型產(chǎn)品作為樣本,通過隱私政策和用戶協(xié)議測(cè)評(píng)、產(chǎn)品功能設(shè)計(jì)體驗(yàn)等方式,進(jìn)行了實(shí)測(cè),發(fā)現(xiàn)不少產(chǎn)品在這方面做得并不出色,我們也清晰地看到了用戶數(shù)據(jù)與AI產(chǎn)品之間的敏感關(guān)系。
01
撤回權(quán)形同虛設(shè)
首先,「科技新知」從登錄頁(yè)面可以明顯看到,7款國(guó)產(chǎn)大模型產(chǎn)品均沿襲了互聯(lián)網(wǎng)APP的“標(biāo)配”使用協(xié)議和隱私政策,并且均在隱私政策文本中設(shè)有不同章節(jié),以向用戶說明如何收集和使用個(gè)人信息。
而這些產(chǎn)品的說法也基本一致,“為了優(yōu)化和改進(jìn)服務(wù)體驗(yàn),我們可能會(huì)結(jié)合用戶對(duì)輸出內(nèi)容的反饋以及使用過程中遇到的問題來改進(jìn)服務(wù)。在經(jīng)過安全加密技術(shù)處理、嚴(yán)格去標(biāo)識(shí)化的前提下,可能會(huì)將用戶向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI相應(yīng)生成的回復(fù)、用戶對(duì)產(chǎn)品的訪問和使用情況進(jìn)行分析并用于模型訓(xùn)練。”
事實(shí)上,利用用戶數(shù)據(jù)訓(xùn)練產(chǎn)品,再迭代更好產(chǎn)品供用戶使用,似乎是一個(gè)正向循環(huán),但用戶關(guān)心的問題在于是否有權(quán)拒絕或撤回相關(guān)數(shù)據(jù)“投喂”AI訓(xùn)練。
而「科技新知」在翻閱以及實(shí)測(cè)這7款A(yù)I產(chǎn)品后發(fā)現(xiàn),只有豆包、訊飛、通義千問、可靈四家在隱私條款中提及了可以“改變授權(quán)產(chǎn)品繼續(xù)收集個(gè)人信息的范圍或撤回授權(quán)”。
其中,豆包主要是集中在語音信息的撤回授權(quán)。政策顯示,“如果您不希望您輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化,可以通過關(guān)閉“設(shè)置”-“賬號(hào)設(shè)置”-“改進(jìn)語音服務(wù)”來撤回您的授權(quán)”;不過對(duì)于其他信息,則是需要通過公示的聯(lián)系方式與官方聯(lián)系,才能要求撤回使用數(shù)據(jù)用于模型訓(xùn)練和優(yōu)化。
圖源/(豆包)
在實(shí)際操作過程中,對(duì)于語音服務(wù)的授權(quán)關(guān)閉并不算難,但對(duì)于其他信息的撤回使用,「科技新知」在聯(lián)系豆包官方后一直未能得到回復(fù)。
圖源/(豆包)
通義千問與豆包類似,個(gè)人能操作的僅有對(duì)語音服務(wù)的授權(quán)撤回,而對(duì)于其他信息,也是需要聯(lián)系通過披露的聯(lián)系方式與官方聯(lián)系,才能改變或者收回授權(quán)收集和處理個(gè)人信息的范圍。
圖源/(通義千問)
可靈作為視頻及圖像生成平臺(tái),在人臉使用方面有著重表示,稱不會(huì)將您的面部像素信息用于其他任何用途或共享給第三方。但如果想要取消授權(quán),則需要發(fā)送郵件聯(lián)系官方進(jìn)行取消。
圖源/(可靈)
相比豆包、通義千文以及可靈,訊飛星火的要求更為苛刻,按照條款,用戶如果需要改變或撤回收集個(gè)人信息的范圍,需要通過注銷賬號(hào)的方式才能實(shí)現(xiàn)。
圖源/(訊飛星火)
值得一提的是,騰訊元寶雖然沒有在條款中提到如何改變信息授權(quán),但在APP中我們可以看到“語音功能改進(jìn)計(jì)劃”的開關(guān)。
圖源/(騰訊元寶)
而Kimi雖然在隱私條款中提到了可以撤銷向第三方分享聲紋信息,并且可以在APP中進(jìn)行相應(yīng)操作,但「科技新知」在摸索良久后并沒有發(fā)現(xiàn)更改入口。至于其他文字類信息,也未找到相應(yīng)條款。
圖源/(Kimi隱私條款)
其實(shí),從幾款主流的大模型應(yīng)用不難看出,各家對(duì)于用戶聲紋管理更為重視,豆包、通義千文等都能通過自主操作去取消授權(quán),而對(duì)于地理位置、攝像頭、麥克風(fēng)等特定交互情況下的基礎(chǔ)授權(quán),也可以自主關(guān)閉,但對(duì)撤回“投喂”的數(shù)據(jù),各家都不那么順暢。
值得一提的是,海外大模型在“用戶數(shù)據(jù)退出AI訓(xùn)練機(jī)制”上,也有相似做法,谷歌的Gemini相關(guān)條款規(guī)定,“如果你不想讓我們審核將來的對(duì)話或使用相關(guān)對(duì)話來改進(jìn)Google的機(jī)器學(xué)習(xí)技術(shù),請(qǐng)關(guān)閉Gemini應(yīng)用活動(dòng)記錄。”
另外,Gemini也提到,當(dāng)刪除自己的應(yīng)用活動(dòng)記錄時(shí),系統(tǒng)不會(huì)刪除已經(jīng)過人工審核員審核或批注的對(duì)話內(nèi)容(以及語言、設(shè)備類型、位置信息或反饋等相關(guān)數(shù)據(jù)),因?yàn)檫@些內(nèi)容是單獨(dú)保存的,并且未與Google賬號(hào)關(guān)聯(lián)。這些內(nèi)容最長(zhǎng)會(huì)保留三年。
圖源/(Gemini條款)
ChatGPT的規(guī)則有些模棱兩可,稱用戶可能有權(quán)限制其處理個(gè)人數(shù)據(jù),但在實(shí)際使用中發(fā)現(xiàn),Plus用戶可以主動(dòng)設(shè)置禁用數(shù)據(jù)用于訓(xùn)練,但對(duì)于免費(fèi)用戶,數(shù)據(jù)通常會(huì)被默認(rèn)收集并用于訓(xùn)練,用戶想要選擇退出則需要給官方發(fā)件。
圖源/(ChatGPT條款)
其實(shí),從這些大模型產(chǎn)品的條款我們不難看出,收集用戶輸入信息似乎已經(jīng)成了共識(shí),不過對(duì)于更為隱私的聲紋、人臉等生物信息,僅有一些多模態(tài)平臺(tái)略有表現(xiàn)。
但是這并非經(jīng)驗(yàn)不足,尤其是對(duì)于互聯(lián)網(wǎng)大廠來說。比如,微信的隱私條款中就詳盡地列舉了每一項(xiàng)數(shù)據(jù)收集的具體場(chǎng)景、目的和范圍,甚至明確承諾“不會(huì)收集用戶的聊天記錄”抖音也是如此,用戶在抖音上上傳的信息幾乎都會(huì)在隱私條款中標(biāo)準(zhǔn)使用方式、使用目的等詳細(xì)說明。
圖源/(抖音隱私條款)
互聯(lián)網(wǎng)社交時(shí)代被嚴(yán)格管控的數(shù)據(jù)獲取行為,如今在AI時(shí)代中卻成了一種常態(tài)。用戶輸入的信息已經(jīng)被大模型廠商們打著“訓(xùn)練語料”的口號(hào)隨意獲取,用戶數(shù)據(jù)不再被認(rèn)為是需要嚴(yán)格對(duì)待的個(gè)人隱私,而是模型進(jìn)步的“墊腳石”。
除了用戶數(shù)據(jù)外,對(duì)于大模型嘗試來說,訓(xùn)練語料的透明也至關(guān)重要,這些語料是否合理合法,是否構(gòu)成侵權(quán),對(duì)于用戶的使用來說是否存在潛在風(fēng)險(xiǎn)等都是問題。我們帶著疑問對(duì)這7款大模型產(chǎn)品進(jìn)行了深度挖掘、評(píng)測(cè),結(jié)果也令我們大吃一驚。
02
訓(xùn)練語料“投喂”隱患
大模型的訓(xùn)練除了算力外,高質(zhì)量的語料更為重要,然而這些語料往往存在一些受版權(quán)保護(hù)的文本、圖片、視頻等多樣化作品,未經(jīng)授權(quán)便使用顯然會(huì)構(gòu)成侵權(quán)。
「科技新知」實(shí)測(cè)后發(fā)現(xiàn),7款大模型產(chǎn)品在協(xié)議中都未提及大模型訓(xùn)練數(shù)據(jù)的具體來源,更沒有公開版權(quán)數(shù)據(jù)。
至于大家都非常默契不公開訓(xùn)練語料的原因也很簡(jiǎn)單,一方面可能是因?yàn)閿?shù)據(jù)使用不當(dāng)很容易出現(xiàn)版權(quán)爭(zhēng)端,而AI公司將版權(quán)產(chǎn)品用作訓(xùn)練語料是否合規(guī)合法,目前還未有相關(guān)規(guī)定;另一方面或與企業(yè)之間的競(jìng)爭(zhēng)有關(guān),企業(yè)公開訓(xùn)練語料就相當(dāng)于食品公司將原材料告訴了同行,同行可以很快進(jìn)行復(fù)刻,提高產(chǎn)品水平。
值得一提的是,大多數(shù)模型的政策協(xié)議中都提到,會(huì)將用戶和大模型的交互后所得到的信息用于模型和服務(wù)優(yōu)化、相關(guān)研究、品牌推廣與宣傳、市場(chǎng)營(yíng)銷、用戶調(diào)研等。
坦白講,因?yàn)橛脩魯?shù)據(jù)的質(zhì)量參差不齊,場(chǎng)景深度不夠,邊際效應(yīng)存在等多方面原因,用戶數(shù)據(jù)很難提高模型能力,甚至還可能帶來額外的數(shù)據(jù)清洗成本。但即便如此,用戶數(shù)據(jù)的價(jià)值仍然存在。只是它們不再是提升模型能力的關(guān)鍵,而是企業(yè)獲取商業(yè)利益的新途徑。通過分析用戶對(duì)話,企業(yè)可以洞察用戶行為、發(fā)掘變現(xiàn)場(chǎng)景、定制商業(yè)功能,甚至和廣告商共享信息。而這些也恰巧都符合大模型產(chǎn)品的使用規(guī)則。
不過,也需要注意的是,實(shí)時(shí)處理過程中產(chǎn)生的數(shù)據(jù)會(huì)上傳到云端進(jìn)行處理,也同樣會(huì)被存儲(chǔ)至云端,雖然大多數(shù)大模型在隱私協(xié)議中提到使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)可行的手段保護(hù)個(gè)人信息,但這些措施的實(shí)際效果仍有擔(dān)憂。
例如,如果將用戶輸入的內(nèi)容作為數(shù)據(jù)集,可能過段時(shí)間后當(dāng)其他人向大模型提問相關(guān)的內(nèi)容,會(huì)帶來信息泄露的風(fēng)險(xiǎn);另外,如果云端或者產(chǎn)品遭到攻擊,是否仍可能通過關(guān)聯(lián)或分析技術(shù)恢復(fù)原始信息,這一點(diǎn)也是隱患。
歐洲數(shù)據(jù)保護(hù)委員會(huì)(EDPB)前不久發(fā)布了對(duì)人工智能模型處理個(gè)人數(shù)據(jù)的數(shù)據(jù)保護(hù)指導(dǎo)意見。該意見明確指出,AI模型的匿名性并非一紙聲明即可確立,而是必須經(jīng)過嚴(yán)謹(jǐn)?shù)募夹g(shù)驗(yàn)證和不懈的監(jiān)控措施來確保。此外,意見還著重強(qiáng)調(diào),企業(yè)不僅要證實(shí)數(shù)據(jù)處理活動(dòng)的必要性,還必須展示其在處理過程中采用了對(duì)個(gè)人隱私侵入性最小的方法。
所以,當(dāng)大模型公司以“為了提升模型性能”而收集數(shù)據(jù)時(shí),我們需要更警惕去思考,這是模型進(jìn)步的必要條件,還是企業(yè)基于商業(yè)目的而對(duì)用戶的數(shù)據(jù)濫用。
03
數(shù)據(jù)安全模糊地帶
除了常規(guī)大模型應(yīng)用外,智能體、端側(cè)AI的應(yīng)用帶來的隱私泄漏風(fēng)險(xiǎn)更為復(fù)雜。
相比聊天機(jī)器人等AI工具,智能體、端側(cè)AI在使用時(shí)需要獲取的個(gè)人信息會(huì)更詳細(xì)且更具有價(jià)值。以往手機(jī)獲取的信息主要包括用戶設(shè)備及應(yīng)用信息、日志信息、底層權(quán)限信息等;在端側(cè)AI場(chǎng)景以及當(dāng)前主要基于讀屏錄屏的技術(shù)方式,除上述全面的信息權(quán)限外,終端智能體往往還可以獲取錄屏的文件本身,并進(jìn)一步通過模型分析,獲取其所展現(xiàn)的身份、位置、支付等各類敏感信息。
例如榮耀此前在發(fā)布會(huì)上演示的叫外賣場(chǎng)景,這樣位置、支付、偏好等信息都會(huì)被AI應(yīng)用悄無聲息地讀取與記錄,增加了個(gè)人隱私泄露的風(fēng)險(xiǎn)。
如“騰訊研究院”此前分析,在移動(dòng)互聯(lián)網(wǎng)生態(tài)中,直接面向消費(fèi)者提供服務(wù)的APP一般均會(huì)被視為數(shù)據(jù)控制者,在如電商、社交、出行等服務(wù)場(chǎng)景中承擔(dān)著相應(yīng)的隱私保護(hù)與數(shù)據(jù)安全責(zé)任。然而,當(dāng)端側(cè)AI智能體基于APP的服務(wù)能力完成特定任務(wù)時(shí),終端廠商與APP服務(wù)提供者在數(shù)據(jù)安全上的責(zé)任邊界變得模糊。
往往廠商會(huì)以提供更好服務(wù)來當(dāng)作說辭,當(dāng)放到整個(gè)行業(yè)量來看,這也并非“正當(dāng)理由”,Apple Intelligence就明確表示其云端不會(huì)存儲(chǔ)用戶數(shù)據(jù),并采用多種技術(shù)手段防止包括Apple自身在內(nèi)的任何機(jī)構(gòu)獲取用戶數(shù)據(jù),贏得用戶信任。
毋庸置疑,當(dāng)前主流大模型在透明度方面存在諸多亟待解決的問題。無論是用戶數(shù)據(jù)撤回的艱難,還是訓(xùn)練語料來源的不透明,亦或是智能體、端側(cè) AI 帶來的復(fù)雜隱私風(fēng)險(xiǎn),都在不斷侵蝕著用戶對(duì)大模型的信任基石。
大模型作為推動(dòng)數(shù)字化進(jìn)程的關(guān)鍵力量,其透明度的提升已刻不容緩。這不僅關(guān)乎用戶個(gè)人信息安全與隱私保護(hù),更是決定整個(gè)大模型行業(yè)能否健康、可持續(xù)發(fā)展的核心要素。
未來,期待各大模型廠商能積極響應(yīng),主動(dòng)優(yōu)化產(chǎn)品設(shè)計(jì)與隱私政策,以更加開放、透明的姿態(tài),向用戶清晰闡釋數(shù)據(jù)的來龍去脈,讓用戶能夠放心地使用大模型技術(shù)。同時(shí),監(jiān)管部門也應(yīng)加快完善相關(guān)法律法規(guī),明確數(shù)據(jù)使用規(guī)范與責(zé)任邊界,為大模型行業(yè)營(yíng)造一個(gè)既充滿創(chuàng)新活力又安全有序的發(fā)展環(huán)境,使大模型真正成為造福人類的強(qiáng)大工具。
原文標(biāo)題 : 實(shí)測(cè)7款主流大模型,隱私裸奔成通病

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽(yáng)光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?