訂閱
糾錯
加入自媒體

AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實踐思考

除第一方數(shù)據(jù)以外,在授權(quán)第二方的過程中,可能大體會分為兩種情況:第一種授權(quán)的目的可能是協(xié)助數(shù)據(jù)挖掘,第二種授權(quán)的目的可能是協(xié)助數(shù)據(jù)變現(xiàn)。在第一種情況下一般會只授權(quán)使用,不授權(quán)再次轉(zhuǎn)讓,并且對存儲進(jìn)行嚴(yán)格的控制(控制在使用所需的存儲范圍內(nèi))。

比如說,對消費行為進(jìn)行建模的第二方數(shù)據(jù),往往會存在過去兩周和過去兩個月這樣兩種時點,超過兩個月的消費行為一般價值也微乎其微。那么在授權(quán)存儲的時候一般會限定存儲時間不能超過2個月(外加一個比如24小時的灰色周期)。

在數(shù)據(jù)使用的授權(quán)上,一般如果對數(shù)據(jù)挖掘的目標(biāo)及使用場景進(jìn)行嚴(yán)格的限定,一方面可以保護(hù)授權(quán)方在競爭法層面的權(quán)益,另一方面也可以間接保護(hù)數(shù)據(jù)擁有方的個人隱私。

從保護(hù)個人隱私的角度來講,假設(shè)授權(quán)的目的是計算某些用戶的還款風(fēng)險從而幫助授權(quán)方?jīng)Q定是否放貸的場景,如果不限定挖掘的目的只能限于該合作方之間的征信目的,則可能會被第二方使用同樣的數(shù)據(jù)用于與其它合作方的營銷場景中作為對于個人現(xiàn)金流的判斷的一個因素。

對于第二種(數(shù)據(jù)變現(xiàn))的情況,會有比如通過特定的場景或產(chǎn)品進(jìn)行變現(xiàn)以及通過售賣標(biāo)簽進(jìn)行變現(xiàn)不同的類型。這里不對各種數(shù)據(jù)變現(xiàn)的方式進(jìn)行展開,但想強調(diào)一點的是在變現(xiàn)的過程中需要關(guān)注的是原始數(shù)據(jù)在第二方或其它地方的沉淀情況。因為雖然一般授權(quán)方會通過限制原始數(shù)據(jù)的轉(zhuǎn)讓(從而保護(hù)個人隱私),但仍然會允許加工過的數(shù)據(jù)進(jìn)行流通或通過某個場景達(dá)成目標(biāo)。

無論是哪種方式輸出的結(jié)果,都難以完全地避免數(shù)據(jù)的信息被沉淀,大量的沉淀會間接的導(dǎo)致原始數(shù)據(jù)被轉(zhuǎn)讓。舉一個數(shù)據(jù)泛化中沉淀結(jié)果的極端例子來說,假設(shè)我們允許對某一個人的常見活動區(qū)域輸出某個較大的半徑圓范圍,多個這樣的半徑圓就可以逐步縮小對這個人活動區(qū)域的判定。

公開數(shù)據(jù)和前述的最大區(qū)別是,由于已經(jīng)公開,只要是獲得了數(shù)據(jù)擁有者對于公開的授權(quán),那么之后不會再對公開數(shù)據(jù)的采集者進(jìn)行一一授權(quán)。采集者獲取公開數(shù)據(jù)的途徑一般也都是通過爬蟲這樣的主動收集的形式,具有一定的收集和清理/整理成本。

這里面一個有意思的地方在于,有一些數(shù)據(jù)并不是嚴(yán)格意義上的被公開數(shù)據(jù),或者說只希望在某個特定范圍內(nèi)被公開。舉例來說社區(qū)的運營者可能只希望社區(qū)的用戶生成內(nèi)容(UGC)在社區(qū)內(nèi)進(jìn)行公開,而不希望流傳到互聯(lián)網(wǎng)上。典型的這類意愿的表述形式有類似于Robots exclusion standard,主要用于向爬蟲聲明網(wǎng)站中哪些內(nèi)容不能被讀取。

除此之外公開數(shù)據(jù)還有可能僅僅是可以被讀取而不能希望被存儲的,舉例來說比如社交網(wǎng)站中的朋友清單。朋友清單被存儲和對比之后就可以得到諸如”哪些朋友取消了對我的關(guān)注“這樣的信息,這里面也存在可能侵害了別人的個人隱私的問題。一般為了防范這樣的越界爬取行為,公司可能會有針對性的組織自己的反扒竊(anti-scraping)系統(tǒng),在協(xié)議范疇之外對數(shù)據(jù)的控制力賦予提供保障。

綜上所述我們可以看到,賦予數(shù)據(jù)的控制力長久以來都面臨許多挑戰(zhàn)。且除了第一方數(shù)據(jù)外,沿著數(shù)據(jù)鏈條向下走,這種挑戰(zhàn)會逐漸增加。這種現(xiàn)象很大程度上源于數(shù)據(jù)作為一種抽象存在,不同于普通物品的可以被復(fù)制,而被復(fù)制的數(shù)據(jù)的控制力將會被重新的定義和賦予。

因此在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),可以很大程度上降低在整個鏈條上管理控制力的成本。需要研究的不是如何把數(shù)據(jù)的鏈條切段,而是如何在鏈條的各個環(huán)節(jié)上更好的完成數(shù)據(jù)控制力的精細(xì)化管理。

新的產(chǎn)業(yè)機(jī)會 — 數(shù)據(jù)流通鏈條中控制力管理的技術(shù)實踐前面提到,解決數(shù)據(jù)流通鏈條中賦予數(shù)據(jù)控制力的問題,主要的方式是針對不同類型的數(shù)據(jù)采取不同的方式,從宏觀上減少數(shù)據(jù)使用就要復(fù)制的情況出現(xiàn)。那么,在具體實踐里,針對個人數(shù)據(jù)的隱私保護(hù),又有哪些宏觀分類要素與技術(shù)手段呢?

宏觀來看,數(shù)據(jù)可以分為個人識別信息(PII)和用戶特征值兩類。PII是指像可以在很高精度上在公開環(huán)境下定位一個人的數(shù)據(jù),比如像美國的SSN,國內(nèi)的身份證號,郵件地址,甚至有可能是電話號碼。用戶特征值基本可以理解為除了PII以外其它的圍繞個人行為特征或個人特性(如生物統(tǒng)計學(xué)數(shù)據(jù),人口統(tǒng)計學(xué)數(shù)據(jù)等)的數(shù)據(jù)了。用戶特征值往往是數(shù)據(jù)挖掘產(chǎn)生價值的對象,而PII則是扮演著將多個特征值統(tǒng)一在一起的角色,由PII形成的圖是數(shù)據(jù)鏈條上公司間進(jìn)行數(shù)據(jù)融合的橋梁。

可以看出,對PII的控制是數(shù)據(jù)鏈條中形成控制的關(guān)鍵,沒有PII的兩個數(shù)據(jù)集是很難整合在一起使用的。針對PII的控制一般被稱為De-identification,目前主要有比如脫敏(Data Masking),匿名(Anonymization)和k-匿名(k-anonymization)由弱到強三種比較常見的方式。

脫敏基本是將比如身份證的一部分隱去,從而在可以接近識別的前提下盡量保護(hù)數(shù)據(jù)的隱私,類似于對一般數(shù)據(jù)處理中的泛化技術(shù)。拋開脫敏過程中的信息丟失不談,這種方法顯然是缺乏足夠的安全性的。因為只要存儲和沉淀這樣的masked data,就可以最終反推出原始數(shù)據(jù)的內(nèi)容來,因此脫敏的方法在隱私要求比較高的環(huán)境中已經(jīng)不再使用了。

匿名指修改或者移除個人身份信息,隱藏數(shù)據(jù)和個人的對應(yīng)關(guān)系。一般的數(shù)據(jù)源會自己生成并管理這種對應(yīng)關(guān)系,由于個人身份信息的完全隱藏,安全性也會遠(yuǎn)高于直接對原始PII進(jìn)行脫敏。同時的對于使用PII來關(guān)聯(lián)數(shù)據(jù)集的這一屬性,也可以靠修改內(nèi)部的對應(yīng)關(guān)系來組織使用匿名數(shù)據(jù)在外部進(jìn)行數(shù)據(jù)集關(guān)聯(lián)的操作。

k-匿名在匿名的基礎(chǔ)之上提出了個人識別不僅限于PII,任何數(shù)據(jù)形成的集合都能在一定程度上識別出一個人來,k在這里指的是用這個數(shù)據(jù)集進(jìn)行識別時可以將識別的人群縮小為數(shù)量為k的集合。k-匿名是目前通用標(biāo)準(zhǔn)中較高的一類,其中k的值越高,隱私保護(hù)的效果越好,在Google和Facebook的內(nèi)部數(shù)據(jù)管理中都有大量的使用。

用戶特征值數(shù)據(jù)主要在價值挖掘中被體現(xiàn),使用的方法宏觀上可以分為使用原始數(shù)據(jù)和使用統(tǒng)計數(shù)據(jù)兩類。比如某人在某時某地進(jìn)行了某次購物可以被認(rèn)為是原始數(shù)據(jù),那么某人在過去的一天里進(jìn)行了3次購物可以被認(rèn)為是統(tǒng)計數(shù)據(jù)。在很多情況下避免原始數(shù)據(jù)的直接使用是不太影響價值挖掘的同時可以更好的保護(hù)原始數(shù)據(jù)的。

類似的,在鏈條中傳遞用戶特征數(shù)據(jù)時所使用的控制方法也比較多,常見的就有泛化(比如給定一個范圍而不是具體的數(shù)值),統(tǒng)計(如前所述),加密(比如同態(tài)加密),差分隱私(比如給定的數(shù)值是原始數(shù)值的基礎(chǔ)上增加一個噪音),合成(比如將原始數(shù)據(jù)轉(zhuǎn)化為代表所需知識的模型或者由模型生成不同于原始數(shù)據(jù)的新數(shù)據(jù))等等。

涉及多方數(shù)據(jù)的安全運算環(huán)境的方式可以從多種角度來劃分。比如從是否存在可信的第三方(或者對于該第三方的信任成本有多大)來談,使用比如GC或者OT來實現(xiàn)的MPC可以實現(xiàn)完全沒有可信第三方的環(huán)境,而基于某些同態(tài)加密設(shè)計或者可信硬件的環(huán)境一般是強依賴于對于第三方的可信度的,而可信硬件環(huán)境還存在信任硬件產(chǎn)品供應(yīng)方這一個額外的信任成本。

除了上述的兩類(MPC和可信硬件)之外,也存在許多其它方式在聯(lián)合運算中保護(hù)原始數(shù)據(jù)的方法,其中就有比如合成數(shù)據(jù)(比如通過將原始數(shù)據(jù)轉(zhuǎn)換為模型),比如差分隱私(巧妙的選擇在原始數(shù)據(jù)上面增加噪聲從而在保護(hù)原始數(shù)據(jù)敏感性的前提下不會過多的干涉運算本身),還有比如傳統(tǒng)的泛化(只傳輸包含原始數(shù)據(jù)的一個范圍)等多種方式。

在實際應(yīng)用之中,一般會考慮數(shù)據(jù)的泄露危害程度(比如PII數(shù)據(jù)的泄露會造成連鎖的數(shù)據(jù)泄露反應(yīng)),數(shù)據(jù)是否容易被沉淀(比如高時效性的數(shù)據(jù)相對不那么容易被沉淀)等在達(dá)到安全級別的前提下,盡可能的保持信息完整性(合成,差分和泛化都會在不同程度上損失原始信息)的同時提升整體系統(tǒng)的運行效率。

在介紹工程實踐的技術(shù)類型的同時,我們也希望澄清在實踐中遇到的兩個比較常見的認(rèn)知誤區(qū):數(shù)據(jù)隱私解決方案,不等同于單一的密碼學(xué)或技術(shù)點創(chuàng)新,是一個結(jié)合了數(shù)據(jù)科學(xué)、密碼學(xué)、聯(lián)邦學(xué)習(xí)、云計算的綜合工程,通常是技術(shù)組合的形式;其次,對于數(shù)據(jù)隱私比較受關(guān)注的MPC(多方安全計算),最近幾年,MPC在數(shù)學(xué)原理上并沒有特別大的根本性變化,更多是工程方面的突破與進(jìn)展。

數(shù)據(jù)的流動性具有其必然性和合理性,也是AI在產(chǎn)業(yè)中更好發(fā)揮智能的基礎(chǔ),但數(shù)據(jù)價值挖掘帶來便利的同時,也面臨著隱私侵犯的隱患。

從當(dāng)下實踐來看,通過給予數(shù)據(jù)擁有方控制力的方式是平衡數(shù)據(jù)價值挖掘和隱私保護(hù)最有效的方式;而流動中的數(shù)據(jù)鏈條復(fù)雜,通常需要在數(shù)據(jù)流通的過程中將數(shù)據(jù)的各種屬性分開管理和授權(quán),盡量減少數(shù)據(jù)復(fù)制的出現(xiàn),從而降低在整個鏈條上管理控制力的成本。數(shù)據(jù)流動過程中的隱私保護(hù),是動態(tài)的、過程中的數(shù)據(jù)安全與隱私,對應(yīng)的技術(shù)實踐也將帶來新的產(chǎn)業(yè)和創(chuàng)新機(jī)會。

對于這個新興的產(chǎn)業(yè),早期我們所選擇的方案也要迎合市場的階段進(jìn)行漸進(jìn)式推廣,比如數(shù)牘科技的解決方案中就設(shè)計了數(shù)據(jù)流控制,數(shù)據(jù)擁有方可以控制數(shù)據(jù)流向為單向或雙向,在現(xiàn)實環(huán)境中靈活應(yīng)用。數(shù)據(jù)隱私規(guī)范和價值挖掘是雙向作用、螺旋上升的過程,只有規(guī)范數(shù)據(jù)使用才可以在匯聚更多數(shù)據(jù)的基礎(chǔ)上迎來價值挖掘的下一個爆發(fā)點。我們很期待未來十年,在隱私規(guī)范的推動下創(chuàng)造出新的數(shù)據(jù)使用范式,推動AI的數(shù)據(jù)基礎(chǔ)設(shè)施革命,并能投入其中貢獻(xiàn)一點自己的力量。

<上一頁  1  2  3  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號