基于深度学习的数据脱敏研究
发布时间:2021-09-23 17:48
随着信息化社会的到来,数据爆发式增长催化了数据产业的蓬勃发展,但是对各种形式数据中的敏感信息进行有效保护的同时减少损害数据的效用性,才能加快数据流通,进一步推动产业发展。数据脱敏即为一种既可针对性保护敏感数据,又可最大程度保留原数据信息的数据安全技术。本文以数据脱敏技术为研究对象,研究基于深度学习的非结构化数据(文本数据,尤其是电子病历)的敏感信息识别技术,同时本文还研究基于GAN(Generative Adversarial Networks,生成对抗网络)的结构化数据脱敏技术。在医疗电子病历的脱敏中,传统的基于规则和正则表达式的敏感信息识别方式需要大量专家知识,迁移性较差,识别模式也较为呆板。以深度学习、机器学习为基础的识别技术应运而生。基于循环神经网络的一系列识别系统大大提升了识别的效果,然而其语义抽取能力稍显薄弱,并行性相对较差,而且传统的静态词向量不能结合上下文对多义词进行准确表征。BERT作为基于注意力机制的动态词向量,其在特征抽取、解决多义词问题和并行性方面有了很大提升。本文在BERT(Bidirectional Encoder Representation from T...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
数据防泄漏随着深度学习的兴起,其强大的特征抽取能力使得非结构化数据其中的信息
charCNN-BiLSTM-CRF架构图
基于字的双向LSTM-CRF架构图
【参考文献】:
期刊论文
[1]个人信息的边界、敏感度与中心度研究——基于专家和公众认知的数据分析[J]. 吴标兵,许和隆. 南京邮电大学学报(社会科学版). 2018(05)
[2]金融消费者隐私权保护机制初探——以自贸区金融创新为视角[J]. 刘元. 法制与经济(下旬). 2014(05)
[3]基于规则和概率统计相结合的中文命名实体识别研究[J]. 闫萍. 计算机与数字工程. 2011(09)
本文编号:3406144
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
数据防泄漏随着深度学习的兴起,其强大的特征抽取能力使得非结构化数据其中的信息
charCNN-BiLSTM-CRF架构图
基于字的双向LSTM-CRF架构图
【参考文献】:
期刊论文
[1]个人信息的边界、敏感度与中心度研究——基于专家和公众认知的数据分析[J]. 吴标兵,许和隆. 南京邮电大学学报(社会科学版). 2018(05)
[2]金融消费者隐私权保护机制初探——以自贸区金融创新为视角[J]. 刘元. 法制与经济(下旬). 2014(05)
[3]基于规则和概率统计相结合的中文命名实体识别研究[J]. 闫萍. 计算机与数字工程. 2011(09)
本文编号:3406144
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3406144.html