医疗隐私保护-基础匿名方法

​ 匿名方法主要可以分为两种:

​ ● 限制发布:即限制发布数据的某些属性,对发布数据进行隐匿、加密等操作。
​ ● 数据失真:主要对原始数据进行扰动处理,使数据失真同时要保证处理后的数据在统计方面保持某些性质。

​ 其中限制发布很容易实现,主要的难点在于如何进行合理的数据失真,这需要寻找数据可用性安全性之间的平衡。
​ 接下来将介绍一些常用的基础处理方式,实际应用的算法就是从这些基本处理方式中选择一种或多种来完成相对应的数据匿名。

1. 直接抑制技术

​ 即在数据传播之前删除或消除关于数据的某些特征。其可以根据实际情况进行整个属性的抑制(例如可以将与健康情况无关的收入属性直接抑制),也可以进行单条记录的抑制(例如某条记录过于明显可以轻易分辨出信息个体),也可以进行单个特征值的抑制(例如某个值是唯一的年龄或邮政编码时)。

​ 直接抑制技术,操作方便,但由于没有统一的标准,且对各个属性的风险判定比较困难,因此如何决策是直接抑制技术的难点。过度的抑制会导致信息的可用性降低,抑制不足则会导致信息的识别风险过大。

2. 泛化技术

​ 泛化(Generalization)是匿名化的典型方法。其思想是通过降低准标识属性值的精度,使得数据表中在准标识属性上值相同的元组个数增加,从而降低攻击人员通过准标识属性标识个体的身份或个体的敏感值的概率。准标识属性分为数值型和分类型两种属性,不同类型的属性泛化操作不同,数值型属性一般被泛化成区间,分类型属性则用一个更一般、更普通(相对应原属性值)的值来取代。例如属性ZIP={311570, 311572,311575, 311578, 311579}可以泛化为3115**,{结婚,离婚,丧偶}可以泛化为已婚。

​ 泛化技术是隐私保护中一种比较常用的技术。经过泛化的数据可以使接收者无法知道准确的值从而降低被识别的风险,且由于值的范围明确,因此数据的失真度也会降低。泛化技术需要注意的是如何确定泛化的范围,每次数据的处理,泛化范围的确定都是需要调整的。

3. 随机浮动技术

​ 随机浮动技术是将具体的值用等同但不相同的值替换,也就是干扰。例如,患者的年龄可以取以5年为窗口的随机值。类似的邮政编码的最后一位数字可以在一定范围内随机产生。

​ 随机浮动技术和泛化技术比较像。随机浮动技术的值显示更加明确,效果也很好,但随机浮动技术无法作用于除数字以外的属性,这使的他的应用比较狭隘。

4. 聚类

​ 聚类方法是最常用的方法之一。其基本思想是产生一个至少包含 k条记录聚类集(等价类)。在每个聚类中的元组要尽可能相似,使数据损失最小,提升数据质量。根据具体实现的不同,聚类算法又可以分为许多不同的子算法,这里就讲两种最为常见

4.1 微聚集[1]

​ 微聚集(Microaggregation)基本思想是根据数据的相似或相近程度划分每个类,类内的元组数至少为k个,用类质心(如均值)代表所划分类内元组的值,从而实现k-匿名。在划分类的同时,要求类中元组在准标识属性上的取值最大程度地相似。由于微聚集以类质心取代类中每个元组的准标识属性值,所以类中元组在准标识属性上越相似,聚集后产生的数据的信息损失就越小。

4.2 凝聚[2]

​ 凝聚(Condensation)其基本思想是将原始数据分组,每一组内存储k个元组的统计信息,包括元组属性的均值、协方差等,通过凝聚技术的处理的数据,都可以用通用的重构算法进行处理,并且重构后的元组不会泄露原始元组的隐私信息,因同组内k个元组是互相不可区分的。凝聚与微聚集方法的区别是形成分组后,对数据的处理方式不同。

5. 分解[3]

​ 分解(Anatomy)由xiao等最先提出,其基本思想是通过对敏感属性 值分组,且采取敏感属性与其他属性分开发布的方式,降低准标识符与敏感属性之间的关联度。分解的方法主要用于实现敏感属性多样模型。其实现方法首先将原始数据进行满足l-diversity多样性原则划分,然后将产生的结果分为两个数据表发布,一个数据表包含每个元组的准标识符属性以及该元组等价类标识ID,另一个表包含等价类标识ID、每个等价类的敏感属性值及其计数。这种方法不仅可以提高准标识符属性数据精度,也保证了所发布的数据满足多样性,使隐私信息得到保护。

6. 排列

​ 排列(permutation)是通过将数据记录划分为若干个组,并在各组中打乱敏感属性值的顺序,降低准标识符与数值型敏感属性的关联度,该方法主要针对敏感属性为数值型的数据。

参考文献

[1] Domingo-Ferrer J, Mateo-Sanz J M. Practical data-oriented microaggregation for statistical disclosure control[J]. IEEE Transactions on Knowledge and data Engineering, 2002, 14(1): 189-201.

[2] Aggarwal C C, Philip S Y. A condensation approach to privacy preserving data mining[C]//International Conference on Extending Database Technology. Springer, Berlin, Heidelberg, 2004: 183-199.

[3] Xiao X, Tao Y. Anatomy: Simple and effective privacy preservation[C]//Proceedings of the 32nd international conference on Very large data bases. VLDB Endowment, 2006: 139-150.

-------------本文结束感谢您的阅读-------------