糖尿病大数据隐私保护技术研究
发布时间:2021-08-21 08:57
近年来随着医疗信息化的普及以及医疗健康大数据研究应用的推广,医疗领域数据存储方式也转向电子化,对医疗大数据研究的热度也就此上升。糖尿病作为威胁人类健康的三大疾病之一,引起了众多对于糖尿病数据挖掘或者数据分析的研究。糖尿病资源库中存储的数据类型复杂,包括了结构化、半结构化和非结构化数据,在涉及隐私问题上,缺乏对糖尿病数据进行敏感性的区分;此外,在众多糖尿病诊断预测的研究中,对用于预测分析的结构化糖尿病研究数据存在未匿名化处理或匿名化处理过度的情况,一方面未经匿名化处理的数据直接用于研究,可能会导致糖尿病数据在分析预测过程中或数据发布过程中发生敏感信息泄露的问题;另一方面,对于糖尿病数据表的过度匿名化会影响糖尿病分析研究的效果。因此,平衡糖尿病数据挖掘、预测分析中的数据高可用性和隐私安全是隐私保护研究中的重点问题,需要针对不同结构的糖尿病数据,从敏感性分类、敏感度分级以及进一步的匿名化实现对糖尿病大数据的隐私保护技术研究。针对半结构化、非结构化的文本类糖尿病数据,提出一种基于LSI-TF-IDF算法的文本分类技术实现对糖尿病文本数据的敏感性自动分类。在对于半结构化、非结构化的文本类型的糖尿...
【文章来源】:南京邮电大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
文本分类过程图
南京邮电大学硕士研究生学位论文第三章匿名相关技术32(2)D中所有元素都是单例的。条件(1)指出,对于每个域Di,Di的域泛化集是完全有序的,因此,每个Di最多具有一个直接广义域(例如,某个体的年龄属性值为32,那么经过域泛化之后,年龄属性可以表示成[30,35]或者[30,40],而[45,50]的直接广义域就是[40,50])。这个条件确保了泛化过程中的确定性。条件(2)确保每个域中的所有值最终都可以泛化为单个值。泛化关系的定义意味着对于每个域Di∈D,都存在着一个完全有序的层次结构,成为域泛化层次结构(DomainGeneralizationHierarchy,DGH),图3.1显示了对于邮政编码集合进行泛化的域泛化层次结构。图3.1域泛化层次结构图从图3.1可以看出,域泛化的过程是自底向上泛化,层次结构的底层H0是邮政编码属性所有值的集合,是泛化的初始状态,H1是对邮政编码属性进行初步泛化,将原始属性域中的5个邮政编码属性泛化为3种可能值的集合,H0是对邮政编码属性进行进一步泛化,将属性域中的属性泛化为1种可能值的集合。值泛化:原始数据表中存储的属性值在发布时可以用一个通用值代替(如表3.1中患者的住址南京市秦淮区中山路12号可以在表3.2中被泛化为南京市)。由于多个值可以映射到一个通用值,因此泛化可以减少不同元组的数量,从而可能增加包含具有相同值的元组的等价类数量。值泛化关系与域中每个值相关联,这意味着对于每个域D都存在值泛化层次结构(ValueGeneralizationHierarchy,VGH),值泛化的具体过程如图3.2所示。
南京邮电大学硕士研究生学位论文第三章匿名相关技术33图3.2值泛化层次结构图从图3.2可以看出,值泛化的过程是从叶子节点开始,利用子节点相似性泛化至父节点的过程。值泛化层次结构树的叶子节点是邮政编码属性的所有值,对每个邮政编码属性的值按照相似性进行泛化,得到上一层的父节点,如编码210011与210012泛化后可以得到父节点21001*,以同样的方式对21004*、21001*、21000*进行进一步值泛化,得到它们的父节点2100**。属性值泛化意味着将其值替换为来自更一般域的相应值。属性值泛化可确保属性的所有值都属于同一域。但是,在值泛化过程的结果,属性的域可以更改,并且由于可以使用广义值代替更具体的值,当数据表中的属性数量很大时,属性的值泛化会导致大量的信息损失,进而影响到数据的可用性。3.3.2抑制抑制技术可以看作是一种最高程度的泛化形式,与泛化技术不同的是,泛化用不太具体但语义上一致的值替换一个值,而抑制根本不释放值。抑制在泛化层次结构中的顶层,是属性值最大泛化。以邮政编码为例,对于邮政编码属性的抑制过程,即是在泛化的基础上,将属性域{210046,210011,210012,210000,210005,510000}最大化程度域泛化至{******},将域中的每个属性值最大化程度值泛化至“******”。图3.3展示了域抑制的过程。
【参考文献】:
期刊论文
[1]大数据环境下医疗数据隐私保护对策研究[J]. 王天屹,刘爱萍. 信息技术与网络安全. 2019(08)
[2]融合TF-IDF和LDA的中文FastText短文本分类方法[J]. 冯勇,屈渤浩,徐红艳,王嵘冰,张永刚. 应用科学学报. 2019(03)
[3]医疗大数据隐私保护技术的研究进展[J]. 史婷瑶,马金刚,曹慧,孟琳,张驰. 中国医疗设备. 2019(05)
[4]一种大数据环境下医疗隐私保护方案设计与实现[J]. 胡荣磊,何艳琼,曾萍,范晓红. 信息网络安全. 2018(09)
[5]大数据+医疗:《2018年中国健康医疗大数据行业报告》发布[J]. 医学信息学杂志. 2018(06)
[6]大数据环境下图书馆敏感数据的识别与保护[J]. 马晓亭. 图书馆论坛. 2017(04)
[7]基于敏感等级划分的(l,t)-相近性匿名算法[J]. 杨静,张冰,张健沛,谢静. 华中科技大学学报(自然科学版). 2014(08)
[8]基于敏感属性值语义桶分组的t-closeness隐私模型[J]. 张健沛,谢静,杨静,张冰. 计算机研究与发展. 2014(01)
[9]基于文本内容的敏感数据识别方法研究与实现[J]. 李伟伟,张涛,林为民,邓松,时坚,汪晨. 计算机工程与设计. 2013(04)
[10]一种敏感信息共享隐私保护框架[J]. 刘小波. 图书情报工作. 2011(13)
博士论文
[1]基于大规模文本数据集的相似检测关键技术研究[D]. 王海涛.吉林大学 2016
[2]文本分类关键技术及应用研究[D]. 凤丽洲.吉林大学 2015
硕士论文
[1]海洋环境信息云平台数据安全等级自动划分的研究[D]. 张晓阳.中国海洋大学 2015
本文编号:3355298
【文章来源】:南京邮电大学江苏省
【文章页数】:82 页
【学位级别】:硕士
【部分图文】:
文本分类过程图
南京邮电大学硕士研究生学位论文第三章匿名相关技术32(2)D中所有元素都是单例的。条件(1)指出,对于每个域Di,Di的域泛化集是完全有序的,因此,每个Di最多具有一个直接广义域(例如,某个体的年龄属性值为32,那么经过域泛化之后,年龄属性可以表示成[30,35]或者[30,40],而[45,50]的直接广义域就是[40,50])。这个条件确保了泛化过程中的确定性。条件(2)确保每个域中的所有值最终都可以泛化为单个值。泛化关系的定义意味着对于每个域Di∈D,都存在着一个完全有序的层次结构,成为域泛化层次结构(DomainGeneralizationHierarchy,DGH),图3.1显示了对于邮政编码集合进行泛化的域泛化层次结构。图3.1域泛化层次结构图从图3.1可以看出,域泛化的过程是自底向上泛化,层次结构的底层H0是邮政编码属性所有值的集合,是泛化的初始状态,H1是对邮政编码属性进行初步泛化,将原始属性域中的5个邮政编码属性泛化为3种可能值的集合,H0是对邮政编码属性进行进一步泛化,将属性域中的属性泛化为1种可能值的集合。值泛化:原始数据表中存储的属性值在发布时可以用一个通用值代替(如表3.1中患者的住址南京市秦淮区中山路12号可以在表3.2中被泛化为南京市)。由于多个值可以映射到一个通用值,因此泛化可以减少不同元组的数量,从而可能增加包含具有相同值的元组的等价类数量。值泛化关系与域中每个值相关联,这意味着对于每个域D都存在值泛化层次结构(ValueGeneralizationHierarchy,VGH),值泛化的具体过程如图3.2所示。
南京邮电大学硕士研究生学位论文第三章匿名相关技术33图3.2值泛化层次结构图从图3.2可以看出,值泛化的过程是从叶子节点开始,利用子节点相似性泛化至父节点的过程。值泛化层次结构树的叶子节点是邮政编码属性的所有值,对每个邮政编码属性的值按照相似性进行泛化,得到上一层的父节点,如编码210011与210012泛化后可以得到父节点21001*,以同样的方式对21004*、21001*、21000*进行进一步值泛化,得到它们的父节点2100**。属性值泛化意味着将其值替换为来自更一般域的相应值。属性值泛化可确保属性的所有值都属于同一域。但是,在值泛化过程的结果,属性的域可以更改,并且由于可以使用广义值代替更具体的值,当数据表中的属性数量很大时,属性的值泛化会导致大量的信息损失,进而影响到数据的可用性。3.3.2抑制抑制技术可以看作是一种最高程度的泛化形式,与泛化技术不同的是,泛化用不太具体但语义上一致的值替换一个值,而抑制根本不释放值。抑制在泛化层次结构中的顶层,是属性值最大泛化。以邮政编码为例,对于邮政编码属性的抑制过程,即是在泛化的基础上,将属性域{210046,210011,210012,210000,210005,510000}最大化程度域泛化至{******},将域中的每个属性值最大化程度值泛化至“******”。图3.3展示了域抑制的过程。
【参考文献】:
期刊论文
[1]大数据环境下医疗数据隐私保护对策研究[J]. 王天屹,刘爱萍. 信息技术与网络安全. 2019(08)
[2]融合TF-IDF和LDA的中文FastText短文本分类方法[J]. 冯勇,屈渤浩,徐红艳,王嵘冰,张永刚. 应用科学学报. 2019(03)
[3]医疗大数据隐私保护技术的研究进展[J]. 史婷瑶,马金刚,曹慧,孟琳,张驰. 中国医疗设备. 2019(05)
[4]一种大数据环境下医疗隐私保护方案设计与实现[J]. 胡荣磊,何艳琼,曾萍,范晓红. 信息网络安全. 2018(09)
[5]大数据+医疗:《2018年中国健康医疗大数据行业报告》发布[J]. 医学信息学杂志. 2018(06)
[6]大数据环境下图书馆敏感数据的识别与保护[J]. 马晓亭. 图书馆论坛. 2017(04)
[7]基于敏感等级划分的(l,t)-相近性匿名算法[J]. 杨静,张冰,张健沛,谢静. 华中科技大学学报(自然科学版). 2014(08)
[8]基于敏感属性值语义桶分组的t-closeness隐私模型[J]. 张健沛,谢静,杨静,张冰. 计算机研究与发展. 2014(01)
[9]基于文本内容的敏感数据识别方法研究与实现[J]. 李伟伟,张涛,林为民,邓松,时坚,汪晨. 计算机工程与设计. 2013(04)
[10]一种敏感信息共享隐私保护框架[J]. 刘小波. 图书情报工作. 2011(13)
博士论文
[1]基于大规模文本数据集的相似检测关键技术研究[D]. 王海涛.吉林大学 2016
[2]文本分类关键技术及应用研究[D]. 凤丽洲.吉林大学 2015
硕士论文
[1]海洋环境信息云平台数据安全等级自动划分的研究[D]. 张晓阳.中国海洋大学 2015
本文编号:3355298
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3355298.html