AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
數(shù)據(jù)隱私的保護(hù)貫穿數(shù)據(jù)流通過程,是一種動(dòng)態(tài)的數(shù)據(jù)安全;數(shù)據(jù)隱私保護(hù)與價(jià)值挖掘并不矛盾,數(shù)據(jù)隱私保護(hù)的落地長(zhǎng)久來看會(huì)推動(dòng)新的數(shù)據(jù)使用范式誕生,而規(guī)范數(shù)據(jù)使用可以促進(jìn)數(shù)據(jù)流通更順暢,在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價(jià)值挖掘的下一個(gè)爆發(fā)點(diǎn),帶動(dòng)AI的基礎(chǔ)設(shè)施革命。
但隱私計(jì)算行業(yè)目前仍處于早期階段,數(shù)牘科技創(chuàng)始人宋一民將在本文與大家分享他對(duì)數(shù)據(jù)使用的思考,以及平衡隱私保護(hù)和價(jià)值挖掘常見的技術(shù)實(shí)踐。
本文的分享提綱如下:1、數(shù)據(jù)流動(dòng)的合理性和必然性2、流動(dòng)鏈條中的數(shù)據(jù)歸類3、數(shù)據(jù)隱私和價(jià)值挖掘的平衡:給予數(shù)據(jù)擁有方控制力4、數(shù)據(jù)擁有者的控制力如何賦予?5、數(shù)據(jù)控制力管理的技術(shù)實(shí)踐
數(shù)據(jù)的流動(dòng)性
一個(gè)數(shù)據(jù)從生成開始的整個(gè)生命周期中,可能會(huì)在多個(gè)機(jī)構(gòu)或節(jié)點(diǎn)間流轉(zhuǎn),在節(jié)點(diǎn)間進(jìn)行流轉(zhuǎn)的過程使得數(shù)據(jù)形成了一個(gè)網(wǎng)絡(luò),就像許多企業(yè)內(nèi)部存在數(shù)據(jù)流動(dòng)的data pipeline,在更宏觀的層面也存在類似的data flow。
在客觀現(xiàn)實(shí)中,數(shù)據(jù)流動(dòng)存在它的合理性和必然性。一方面,對(duì)于任何一個(gè)個(gè)體,他的數(shù)據(jù)會(huì)在不同的場(chǎng)景中產(chǎn)生和被采集。比如使用打車軟件會(huì)產(chǎn)生位置移動(dòng)的信息,住酒店會(huì)產(chǎn)生住宿信息,在淘寶買東西會(huì)產(chǎn)生購(gòu)物信息等,很難想象會(huì)有一個(gè)實(shí)體掌握關(guān)于這個(gè)個(gè)體的全部數(shù)據(jù);另一方面,挖掘數(shù)據(jù)的過程也存在專業(yè)性的問題,在不同場(chǎng)景中根據(jù)不同需求,挖掘可能很難完全由同一個(gè)實(shí)體來完成。因此往往為了充分的挖掘數(shù)據(jù)價(jià)值,需要盡可能的將多個(gè)數(shù)據(jù)產(chǎn)生的源頭,經(jīng)過多個(gè)節(jié)點(diǎn)進(jìn)行匯聚,加工處理和使用。
從產(chǎn)業(yè)的角度來看,我們常形容互聯(lián)網(wǎng)和AI的關(guān)系是“連接產(chǎn)生數(shù)據(jù),數(shù)據(jù)產(chǎn)生智能”,在連接和智能決策的過程,其實(shí)也是數(shù)據(jù)流動(dòng)匯集、價(jià)值挖掘的過程。更豐富的數(shù)據(jù)維度和更好的數(shù)據(jù)覆蓋對(duì)于模型的質(zhì)量也是至關(guān)重要的。數(shù)據(jù)作為AI的原料,其流動(dòng)性也是讓AI更好發(fā)揮價(jià)值的基石。流動(dòng)中的數(shù)據(jù)
數(shù)據(jù)的流動(dòng)性具有合理性和必要性,而流動(dòng)過程中的數(shù)據(jù)在實(shí)踐中通常是被如何被歸類和定位的?
數(shù)據(jù)在經(jīng)過不同節(jié)點(diǎn)的過程中,會(huì)在不同的上下文環(huán)境中被提及:比如數(shù)據(jù)的收集,存儲(chǔ),使用,以及對(duì)應(yīng)的前述行為的轉(zhuǎn)讓。收集主要對(duì)應(yīng)原始數(shù)據(jù)的采集或者形成結(jié)構(gòu)化數(shù)據(jù)的過程,比如將用戶操作 App 的動(dòng)作形成日志傳回服務(wù)器端,或者比如將用戶產(chǎn)生的評(píng)論進(jìn)行匯總。存儲(chǔ)和使用一般都是按字面意思對(duì)數(shù)據(jù)進(jìn)行保存或者處理。
為了進(jìn)行數(shù)據(jù)的聚合或者借助外來力量對(duì)數(shù)據(jù)進(jìn)行挖掘,可能會(huì)涉及將這些數(shù)據(jù)的存儲(chǔ)或者使用權(quán)轉(zhuǎn)讓給其它方的過程。
另外考慮到這些和個(gè)人數(shù)據(jù)相關(guān)的不同上下文,普通用戶在簽數(shù)據(jù)授權(quán)的時(shí)候也可以額外關(guān)注一下授權(quán)協(xié)議是否清晰的定義了這些不同的范疇,比如某 App 本身,對(duì)什么數(shù)據(jù)、進(jìn)行不超過多長(zhǎng)時(shí)間的存儲(chǔ),并且這個(gè)存儲(chǔ)權(quán)不會(huì)轉(zhuǎn)讓給除某 App 本身的其它實(shí)體。
一般收集或采集到數(shù)據(jù)的一方被稱為第一方數(shù)據(jù),第一方數(shù)據(jù)為了更好地用數(shù)據(jù)服務(wù)使用者,往往會(huì)在授權(quán)中要求更多的權(quán)限。比如在數(shù)據(jù)使用權(quán)里可能會(huì)要求通過數(shù)據(jù)對(duì)個(gè)人用戶的信息流進(jìn)行更好的匹配,這里面可能就包含了使用原始數(shù)據(jù)(如用戶對(duì)哪些帖子進(jìn)行了點(diǎn)贊)所進(jìn)行的優(yōu)化,也可能包含了將一個(gè)用戶的信息用于另一個(gè)或一些用戶。
之前提到,完全由一個(gè)實(shí)體從頭到尾閉環(huán)能完成的事情非常有限,因此這里面會(huì)涉及到將用戶的一些信息(可能是原始信息,可能是聚合或者泛化信息)轉(zhuǎn)讓給其它實(shí)體協(xié)助完成的情況。這些從第一方數(shù)據(jù)所得數(shù)據(jù)的實(shí)體被稱為第二方數(shù)據(jù)。
受限于數(shù)據(jù)本身商業(yè)價(jià)值或相應(yīng)法律或PR風(fēng)險(xiǎn)的考慮,在這個(gè)數(shù)據(jù)轉(zhuǎn)移的過程中第一方會(huì)希望盡量控制減少數(shù)據(jù)本身的泄露。一般通過協(xié)議的角度可能是規(guī)定數(shù)據(jù)使用的范疇,規(guī)定數(shù)據(jù)可以被存儲(chǔ)的時(shí)間等。通過技術(shù)的角度可能是去除個(gè)人識(shí)別標(biāo)識(shí),做一些預(yù)處理比如泛化(將給定的位置從一個(gè)具體的位置變成處于某一個(gè)圓的范圍內(nèi))等,后面會(huì)對(duì)這些方法做一個(gè)簡(jiǎn)單的描述。
除第二方數(shù)據(jù)以外,還會(huì)存在一些根據(jù)某些特定目的而將大量原始數(shù)據(jù)進(jìn)行匯聚的實(shí)體,目的可能是比如進(jìn)行某些統(tǒng)計(jì)分析的研究(比如所有人的存貸比,比如所有人的年齡分布等),也可能是某些特定研究(比如某類藥的安全使用范圍)等,這樣的實(shí)體可以被稱為第三方數(shù)據(jù)。
除了這三方的數(shù)據(jù)以外,還存在公開數(shù)據(jù)這個(gè)范疇。公開數(shù)據(jù)的定義很難做到清晰,不過一般認(rèn)為是任何一方可以通過爬蟲直接從互聯(lián)網(wǎng)獲得的數(shù)據(jù)(沒有經(jīng)過數(shù)據(jù)擁有者的直接授權(quán))。但在現(xiàn)實(shí)情況中,判斷公開數(shù)據(jù)的流通是否有風(fēng)險(xiǎn)往往也和公開數(shù)據(jù)被獲取的一方對(duì)于這種獲取行為如何看待相關(guān)。
注意這里所指的公開數(shù)據(jù)被獲取方并不一定是數(shù)據(jù)的擁有者,因此也會(huì)出現(xiàn)在談及數(shù)據(jù)的收集,存儲(chǔ),使用之外的另一個(gè)上下文:公開。即第一第二或者第三方實(shí)體是否獲得了公開該數(shù)據(jù)的授權(quán)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
3月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
4月30日立即下載>> 【村田汽車】汽車E/E架構(gòu)革新中,新智能座艙挑戰(zhàn)的解決方案
-
5月15-17日立即預(yù)約>> 【線下巡回】2025年STM32峰會(huì)
-
即日-5.15立即報(bào)名>>> 【在線會(huì)議】安森美Hyperlux™ ID系列引領(lǐng)iToF技術(shù)革新
-
5月15日立即下載>> 【白皮書】精確和高效地表征3000V/20A功率器件應(yīng)用指南
-
5月16日立即參評(píng) >> 【評(píng)選啟動(dòng)】維科杯·OFweek 2025(第十屆)人工智能行業(yè)年度評(píng)選
推薦專題
- 1 UALink規(guī)范發(fā)布:挑戰(zhàn)英偉達(dá)AI統(tǒng)治的開始
- 2 北電數(shù)智主辦酒仙橋論壇,探索AI產(chǎn)業(yè)發(fā)展新路徑
- 3 降薪、加班、裁員三重暴擊,“AI四小龍”已折戟兩家
- 4 “AI寒武紀(jì)”爆發(fā)至今,五類新物種登上歷史舞臺(tái)
- 5 國(guó)產(chǎn)智駕迎戰(zhàn)特斯拉FSD,AI含量差幾何?
- 6 光計(jì)算迎來商業(yè)化突破,但落地仍需時(shí)間
- 7 東陽光:2024年扭虧、一季度凈利大增,液冷疊加具身智能打開成長(zhǎng)空間
- 8 地平線自動(dòng)駕駛方案解讀
- 9 封殺AI“照騙”,“淘寶們”終于不忍了?
- 10 優(yōu)必選:營(yíng)收大增主靠小件,虧損繼續(xù)又逢關(guān)稅,能否乘機(jī)器人東風(fēng)翻身?