匿名化是為了確保數(shù)據(jù)的隱私性,公司用它來保護(hù)敏感數(shù)據(jù)。這類數(shù)據(jù)包括:
私人數(shù)據(jù)
業(yè)務(wù)信息,如財(cái)務(wù)信息或商業(yè)秘密
機(jī)密信息,如軍事機(jī)密或政府信息
匿名化為遵循個(gè)人數(shù)據(jù)相關(guān)隱私條例提供了范例,個(gè)人數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的重合之處就是客戶信息所在。但并非所有的業(yè)務(wù)數(shù)據(jù)都受監(jiān)管,本文將重點(diǎn)討論個(gè)人數(shù)據(jù)的保護(hù)。
敏感數(shù)據(jù)類型示例
在歐洲,監(jiān)管機(jī)構(gòu)將任何與某人(如你的名字)有關(guān)的信息定義為“個(gè)人數(shù)據(jù)”。不論形式,任何關(guān)聯(lián)到此人的信息都符合上述定義。從上世紀(jì)起,個(gè)人數(shù)據(jù)收集逐漸民主化,數(shù)據(jù)匿名化問題開始出現(xiàn)。隨著隱私條例在世界各地開始生效,這件事尤顯重要。
什么是數(shù)據(jù)匿名化,為何要關(guān)注它?
我們從經(jīng)典定義開始。歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)是這樣定義對(duì)匿名信息的:“與識(shí)別或可識(shí)別自然人無關(guān)的信息,或以數(shù)據(jù)主體不能或不再可識(shí)別的方式匿名提供的個(gè)人信息?!?/p>
其中,“可識(shí)別”和“不再”至關(guān)重要。這不僅意味著你的名字不應(yīng)再出現(xiàn)在數(shù)據(jù)中,也意味著不能從剩余數(shù)據(jù)中發(fā)現(xiàn)你是誰,這與再認(rèn)同(有時(shí)也叫去匿名化)過程有關(guān)。
同樣,GDPR(契約中)陳述了一個(gè)重要事實(shí):“……因此,數(shù)據(jù)保護(hù)不應(yīng)適用于匿名信息”。所以,若你設(shè)法匿名數(shù)據(jù),就不再受GDPR數(shù)據(jù)保護(hù)法的約束。
你可以執(zhí)行任何處理操作,如分析或數(shù)據(jù)貨幣化。這帶來了大量機(jī)會(huì):
出售數(shù)據(jù)顯然是首選用途。在世界各地,隱私保護(hù)法正在限制個(gè)人數(shù)據(jù)交易,而匿名數(shù)據(jù)為公司提供了另一種選擇。
它帶來了合作機(jī)會(huì)。許多公司為了創(chuàng)新或研究而共享數(shù)據(jù),匿名數(shù)據(jù)有助于降低風(fēng)險(xiǎn)。
它還為數(shù)據(jù)分析和機(jī)器學(xué)習(xí)創(chuàng)造了機(jī)會(huì)。在保持兼容性的同時(shí)運(yùn)行敏感數(shù)據(jù)的操作正變得越來越復(fù)雜,匿名數(shù)據(jù)為統(tǒng)計(jì)分析和模型訓(xùn)練提供了安全的原材料,前景一片光明。但實(shí)際上真正的匿名數(shù)據(jù)往往并不如愿。
數(shù)據(jù)隱私保護(hù)機(jī)制的范圍
數(shù)據(jù)的隱私保護(hù)有一個(gè)范圍。多年來,專家們研發(fā)了一系列集方法、機(jī)制和工具為一體的技術(shù)。這些技術(shù)生成了具有不同的匿名級(jí)別和不同再識(shí)別風(fēng)險(xiǎn)等級(jí)的數(shù)據(jù)??梢哉f,其范圍涵蓋了個(gè)人可識(shí)別數(shù)據(jù)乃至真正的匿名數(shù)據(jù)。
數(shù)據(jù)隱私的范圍
左端,有包含直接個(gè)人識(shí)別碼的數(shù)據(jù)。通過這些元素,可以識(shí)別你的姓名、地址或電話號(hào)碼。另一端,則是GDPR引用的匿名數(shù)據(jù)。
如你所見,這些數(shù)據(jù)有一個(gè)中間范疇。它處于可識(shí)別數(shù)據(jù)和匿名數(shù)據(jù)之間,即假名數(shù)據(jù)和去識(shí)別數(shù)據(jù)。請(qǐng)注意,其界定仍有爭(zhēng)議。有些報(bào)告認(rèn)為假名化是去識(shí)別化的一部分, 而另一些報(bào)告則將其排除在外。
生成這種“中間數(shù)據(jù)”的技術(shù)本身并無問題。它們能有效地將數(shù)據(jù)最小化。根據(jù)用例需求,它們將彼此關(guān)聯(lián),發(fā)揮用處。但切記,它們無法生成真正的匿名數(shù)據(jù),它們的機(jī)制無法保證阻止再識(shí)別,所以將其生成的數(shù)據(jù)稱為“匿名數(shù)據(jù)”是一種誤導(dǎo)。
匿名和“匿名”
假名化和去識(shí)別化確實(shí)能在某些方面保護(hù)數(shù)據(jù)隱私。但根據(jù)GDPR的定義,它們無法生成匿名數(shù)據(jù)。
假名化技術(shù)從數(shù)據(jù)中刪除或替換直接個(gè)人標(biāo)識(shí)碼,例如,從數(shù)據(jù)集中刪除所有名稱和電子郵件,你無法直接從假名數(shù)據(jù)中識(shí)別某人,不過可以間接識(shí)別。實(shí)際上,剩余數(shù)據(jù)通常會(huì)保留間接識(shí)別碼,組合這些信息后,就能創(chuàng)建直接識(shí)別碼,如出生日期,郵編,性別等。
就此而言,假名化在GDPR框架中有一個(gè)單獨(dú)定義:“……以以下方式處理個(gè)人數(shù)據(jù),即在不使用附加信息的情況下,數(shù)據(jù)不再可以歸因于特定數(shù)據(jù)主體”。與匿名數(shù)據(jù)相反,假名數(shù)據(jù)符合GDPR的要求。
去識(shí)別化技術(shù)從數(shù)據(jù)中去除直接和間接的個(gè)人身份識(shí)別碼。理論上,去識(shí)別化數(shù)據(jù)和匿名化數(shù)據(jù)之間的界限很簡(jiǎn)單。最新消息表明:有技術(shù)可保障永遠(yuǎn)無法再識(shí)別數(shù)據(jù)。這是一種“疑罪從無”的情況,去識(shí)別化數(shù)據(jù)在未識(shí)別之前是匿名的。每當(dāng)專家設(shè)法重新識(shí)別那些最初未識(shí)別出的數(shù)據(jù)時(shí),他們都進(jìn)一步推動(dòng)了發(fā)展。
數(shù)據(jù)重新識(shí)別不斷重新定義匿名
上述機(jī)制類型對(duì)隱私保護(hù)沒有同等效力,因此如何處理這些數(shù)據(jù)很重要。公司定期發(fā)布或出售他們聲稱“匿名”的數(shù)據(jù),但當(dāng)他們使用的方法不能保證“匿名”時(shí),就會(huì)帶來隱患。
眾多事件表明,假名化數(shù)據(jù)這種隱私保護(hù)機(jī)制仍有缺陷。數(shù)據(jù)中的間接識(shí)別碼會(huì)帶來巨大的再識(shí)別風(fēng)險(xiǎn)。隨著可用數(shù)據(jù)量的增長(zhǎng),相互參照數(shù)據(jù)集的機(jī)會(huì)也在增加:
1990年,麻省理工學(xué)院的研究生從去識(shí)別化醫(yī)療數(shù)據(jù)中重新確認(rèn)了馬薩諸塞州州長(zhǎng)的身份,她將這些信息與公用人口普查數(shù)據(jù)相互參照來確定患者身份。
2006年,作為研究計(jì)劃的一部分,美國在線公司(AOL)共享了去識(shí)別化搜索數(shù)據(jù),研究人員能夠?qū)⑺阉鞑樵兣c背后的個(gè)人聯(lián)系起來。
2009年,作為比賽的一部分,網(wǎng)飛(Netflix)發(fā)布了一個(gè)匿名電影評(píng)級(jí)數(shù)據(jù)集,德克薩斯州的研究人員成功重新識(shí)別了用戶。
同是2009年,研究人員僅利用公開信息就能預(yù)測(cè)出一個(gè)人的社會(huì)保險(xiǎn)號(hào)。
最近研究表明,去識(shí)別化數(shù)據(jù)實(shí)際上可以被重新識(shí)別。比利時(shí)新魯汶大學(xué)和倫敦帝國理工學(xué)院的研究人員發(fā)現(xiàn):“使用15個(gè)人口統(tǒng)計(jì)屬性,在任何數(shù)據(jù)集中,99.98%的美國人都能被正確地重新識(shí)別。”
另一項(xiàng)針對(duì)匿名手機(jī)數(shù)據(jù)的研究表明:“四個(gè)時(shí)空點(diǎn)就足以唯一識(shí)別95%的個(gè)體用戶”。
技術(shù)日益進(jìn)步,更多的數(shù)據(jù)正在被創(chuàng)建,研究人員正在努力劃定去識(shí)別化數(shù)據(jù)和匿名數(shù)據(jù)之間的界限。2017年,研究人員發(fā)表論文稱:“網(wǎng)絡(luò)瀏覽歷史只能通過公開數(shù)據(jù)鏈接到社交媒體上的個(gè)人資料。”
另一個(gè)令人擔(dān)憂的問題是個(gè)人資料的泄露,越來越多的個(gè)人信息遭到泄露。ForgeRock消費(fèi)者身份泄露報(bào)告預(yù)測(cè),2020年的信息泄露數(shù)量將超過去年,僅美國,2020年第一季度就有超過16億的客戶記錄被泄露。
分開處理的數(shù)據(jù)集無法重新識(shí)別,但與泄露數(shù)據(jù)結(jié)合起來,它會(huì)造成更大的威脅。哈佛大學(xué)的學(xué)生能夠利用泄露的數(shù)據(jù)重新識(shí)別去識(shí)別化數(shù)據(jù)。
總之,那些我們所認(rèn)為的“匿名數(shù)據(jù)”往往并不是真正的匿名數(shù)據(jù)。并非所有的數(shù)據(jù)凈化方法都會(huì)生成真正的匿名數(shù)據(jù)。事事都各有優(yōu)點(diǎn),但沒有一種能提供與匿名同等級(jí)別的隱私。隨著數(shù)據(jù)量的不斷增長(zhǎng),創(chuàng)建真正的匿名數(shù)據(jù)也越來越難,公司發(fā)布潛在可重新識(shí)別的個(gè)人數(shù)據(jù)的風(fēng)險(xiǎn)也在增加。
責(zé)編AJX
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7115瀏覽量
89333 -
匿名
+關(guān)注
關(guān)注
0文章
6瀏覽量
6799 -
隱私保護(hù)
+關(guān)注
關(guān)注
0文章
299瀏覽量
16461
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論