医疗隐私保护-基本概念和术语

既然要进行医疗数据隐私保护,那么就少不了对医疗隐私保护领域的基本术语和概念进行一下初步了解。

1. 医疗数据使用前提

​ 在‘’法律“那一章,我们已经得到了一个十分有用的结论:只要医疗数据进行了匿名化操作,就不再受法律保护,就能够愉快的使用了!
​ 于是,作为数据持有方,要想充分利用宝贵的医疗数据,首先需要做的就是数据匿名化!
​ 那么完善的数据匿名化就是医疗数据最大的使用前提。

2. 医疗数据保护方向

​ 医疗数据的使用范围十分广泛,使用方式也种类繁多,因此对医疗数据的保护需要根据其具体使用方式进行相对应的针对。现在,医疗数据的使用方式大概可以分为以下几种:

数据分享

​ 这里的数据分享更多的是指单纯的数据供给。现在数据分享大都采用单数据发布,且原始版本发布后,不在添加、修改更新。且相同数据的子集通常也不作为其他匿名数据发布的一部分。具体的保护方法有差分法、K-匿名法等。

分布式和动态数据集

​ 随着互联网技术的不断发展,分布式和动态数据集的医疗数据使用方式也越来越常见。

​ ● 记录链接:由于一个人的信息往往被多个组织分别拥有,如国家统计组织、医院等等,这些数据往往需要整合使用。对此有记录链接技术进行保护。

​ ● 医疗信息交互系统:这些系统往往直接收集了病人的信息,提供给多方使用。保护技术有访问控制技术,同意管理技术。

​ ● 云平台:利用云计算基础设施来存储,管理,分析和共享医疗数据。该领域的技术研究还比较少。

一些新兴领域

​ 由于人类医疗技术的快速发展,许多新兴的医疗数据被用于研究分析。这些医疗数据无疑也包含着大量的患者隐私信息,因此如何处理这些新兴数据类型变的十分重要。

​ 对于基因组数据有差分保护法(可防背景攻击);加密保护法(可用于原始基因组数据的管理;利用基因组数据进行医学检验;基因组数据在遗传关联研究中的应用;基因组数据的安全数据存储与检索)。
​ 对于医学图像则可结合加密和水印方法。
​ 另外还有射频识别数据(RFID)、生物医学信号、健康社交网络信息等新兴数据。

3. 医疗数据基本术语

个人信息 (Personal information)

​ 以电子或其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息。

个人敏感信息 (Personal sensitive information)
​ 一旦泄露、非法提供或者滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。

个人信息主体 (Personal data subject)
​ 个人信息所标识的自然人。

去标识化 (de-identification)
​ 通过对个人信息的技术处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程。

匿名化 (anonymization)
​ 通过对个人信息的技术处理,使得个人信息主体无法被识别,且处理后的信息不能被复原的过程。
注: 可以看出匿名化比去标识化更加的严格!

显示标识符EI (Explicit-Identifier)
​ 显示标识符可直接表示出个体身份的属性,如身份证号、社保号、姓名等。一般在数据发布前将显示标识符属性屏蔽、删除或加密,达到保护这些私有信息的目的。

准标识符QI (Quasi-Identifier)
​ 攻击者可以根据准标识符推断出个体身份。表中的属性都可以为准标识符。一般情况下,准标识符的选取是由具有经验的专家或根据实际需要选择。

敏感属性(Sensitive-Identifier Attribute)
​ 敏感属性即为敏感信息,涉及个体隐私,如身体健康状况、薪水等。对于一个属性来说,什么时候作为准标识符属性和什么时候作为敏感属性不是一成不变的。例如,属性婚姻状况若只有’已婚’和’未婚’两个属性值,可以不作为敏感属性,若属性值为’已离婚’、’单身’、’分居’、’丧偶’、’已婚’等,就很有可能成为敏感属性。

非敏感属性(Nonsensitive-Identifier Attribute)
​ 非敏感属性即为非敏感信息,单一的属性可作为非敏感属性,但若多个非敏感属性组合就有可能成为准标识符,如只有’出生年份’属性,就不具备敏感性,但若’姓名’属性同时出现,就会成为准标识符,因为属性’姓名’和‘出生年份’一旦形成匹配,很有可能获得更多的信息,导致隐私信息(敏感属性值)的泄露。

等价类(Equivalence Class)
​ 在属性{Ai,…,Aj}上的等价类指:在同一个等价类中每条信息的{Ai,…,Aj}属性都完全相同,而在不同等价类中每条信息的{Ai,…,Aj}属性并不完全相同。

-------------本文结束感谢您的阅读-------------