訂閱
糾錯
加入自媒體

AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價值挖掘的實踐思考

流動中的數(shù)據(jù)價值挖掘 V.S. 隱私保護(hù)

— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動中的價值挖掘能讓AI更好地發(fā)揮價值,但同時,數(shù)據(jù)流動過程中不經(jīng)節(jié)制的應(yīng)用,也會帶來數(shù)據(jù)隱私侵犯的隱患。最近多個金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來看,其中一個重要原因就是該類公司的爬蟲對觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲或超出了約定的使用范圍。

舉例來說,如果有一個 App 聲稱幫助用戶進(jìn)行多個金融賬戶進(jìn)行管理并綜合呈現(xiàn)個人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶就需要提供這些金融賬戶的訪問權(quán)限。但如果在這個過程中 App 對個人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲,并將這些信息提煉出來的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過程未對用戶進(jìn)行告知并獲得許可,都是一種對數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實踐來看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個控制力,包括對數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國際上普遍進(jìn)行的實踐或者規(guī)范(如GDPR)都傾向于對個人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。

比如GDPR中就會要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶有了這個明目之后,應(yīng)當(dāng)有權(quán)來選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會要求對數(shù)據(jù)處理方法作出明確問詢和授權(quán),“比如通過采集到的用戶點贊的帖子的內(nèi)容和類型來學(xué)習(xí)用戶的興趣愛好”;這些興趣愛好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶進(jìn)行逐一的明確授權(quán)。

當(dāng)我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價值挖掘和隱私保護(hù),在實踐中又會出現(xiàn)一個新的挑戰(zhàn)——如何在不侵犯個人隱私的前提下,獲得個人的授權(quán)。

舉個例子,比如在獲得興趣愛好標(biāo)簽授權(quán)的時候不太可能有用戶可以預(yù)先對近乎無限多的興趣愛好進(jìn)行一一授權(quán),一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個標(biāo)簽,再針對這個標(biāo)簽進(jìn)行問詢。

我們在過去的工作實踐中見過的最好的處理方法是首先對多達(dá)三到六百萬常用的興趣愛好做知識圖,將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來;之后再對各類興趣愛好通過找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問詢這樣點到為止的方式來完成。

即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對GDPR或者相關(guān)合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個事實。

數(shù)據(jù)擁有者的控制力如何賦予?數(shù)據(jù)擁有者控制力的核心意義在于讓每個擁有者在挖掘和保護(hù)之間選擇自己的平衡點。為了給擁有者控制力,第一步要討論的是誰是數(shù)據(jù)的擁有者這個問題。

一般對于個人數(shù)據(jù)來說,無論是個人的身份識別信息或者生物統(tǒng)計信息這樣對個人進(jìn)行描述的數(shù)據(jù),還是用戶的行為信息(比如訪問了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù),都會認(rèn)為擁有者是這個人本身。

尤其對于產(chǎn)生的標(biāo)簽數(shù)據(jù)來說,有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來的因此擁有者是采集方這個想法也不應(yīng)該是被廣泛認(rèn)同的。

圍繞擁有方是產(chǎn)生數(shù)據(jù)的個體這條線去思考,在整個數(shù)據(jù)生命周期鏈條里面就存在對第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。

對于第一方來說,由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個針對給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲和使用三個方面給予控制力。

首先用戶會看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見),之后允許用戶決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶對這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲控制)。

這個功能聽上去簡單,但實際上對于一個正在運轉(zhuǎn)的機(jī)構(gòu)來說,要涉及到鑒別所有的數(shù)據(jù)來源、在復(fù)雜的數(shù)據(jù)流里面識別各類數(shù)據(jù)、以及對某個數(shù)據(jù)的所有存儲位置進(jìn)行控制這幾方面能力。對于小機(jī)構(gòu)來說資源和投入產(chǎn)出比肯定是不夠的,對于大機(jī)構(gòu)來說由于內(nèi)部數(shù)據(jù)流太過復(fù)雜,為了實現(xiàn)它往往會需要做整個系統(tǒng)的重新設(shè)計和實現(xiàn),代價也不言而喻。

舉例來說,為了實現(xiàn)Clear History:首先為了在幾萬PB的數(shù)據(jù)倉庫中甚至更大的冷存儲中找到所需要控制的數(shù)據(jù),就需要做整個數(shù)據(jù)集的語義識別(很多時候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型),這個過程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲點,會需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對數(shù)據(jù)流進(jìn)行端到端的識別。當(dāng)所有的存儲點識別完成后,為了實現(xiàn)功能中的實時刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個高吞吐量的中心管理系統(tǒng)。

這個過程協(xié)調(diào)了許多內(nèi)部部門,消耗了大量的資源,耗時一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

<上一頁  1  2  3  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號