基于深度学习的属性抽取技术研究
本文关键词:基于深度学习的属性抽取技术研究 出处:《浙江大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 属性抽取 远程监督 长短期记忆网络 多实例多标签 词向量 特征
【摘要】:如何将大量的非结构化信息转换为人们易于理解的结构化信息,提取语义信息,已成为近年来研究的热点。实体的属性抽取方法,是将非结构化数据转换为结构化数据的一种重要手段,是自然语言处理任务的一个重要子任务。虽然,已经有不少的方法提出用来完成属性抽取任务,但是这些方法中仍然存在一些问题需要解决。本文针对这些方法中存在的问题进行深入研究,提出了一种基于长短期记忆网络的多实例多标签的算法,主要按照以下顺序展开工作:首先展示了属性抽取较为流行的几种方法,主要有基于规则的方法、有监督的和无监督的机器学习方法。这些方法存在对人工和其他自然语言处理工具依赖性过大,无法应用到目标关系,性能还有待提升等问题。针对上述问题,本文提出的方法使用远程监督的方式生成模型训练和测试所需要的样本,减少对人工的依赖。使用多实例多标签模型解决远程监督生成样本中的多实例多标签现象。多实例多标签模型利用带有隐变量的图模型建模一个实体对有多个实例,以及不同实例可能对应不同标签因而存在多个标签的问题。同时,使用深度学习的方法自动学习大量样本数据的内部规律。利用词向量作为模型需要的特征,能够表达词与词之间的相似性,减少对其它自然语言处理工具的依赖,防止错误的传播和累加。使用长短期记忆网络训练模型,充分利用了句子的时序信息,通过句子前后的上下文关系,学习了句子中存在的语法关系和语义关系。长短期记忆网络能够选择性的丢弃一些无用信息,而保留重要的有用信息,对于学习较长句子中的内在关系非常有效。此外,本文还利用了实体的类型信息,用来区分不同实体对的不同关系。本文用属性抽取较为常用的数据集,与目前比较流行的几个属性抽取模型进行对比实验。实验结果表明,与其它对比模型相比,本文提出的方法在几个重要评价指标上的表现更优。证明它在性能上有一定的提升,验证了它的有效性。最后,本文将属性算法应用到了 973跨媒体计算示范应用平台,构建了一个关于疾病的知识图谱。通过实践,验证了本文方法的实用性。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 卢汉;曹存根;王石;;基于元性质的数量型属性值自动提取系统的实现[J];计算机研究与发展;2010年10期
2 张爱平;张小红;;属性值为语言区间的多属性决策方法[J];计算机工程与应用;2011年07期
3 崔勇;高岩;王福利;王子敬;;模糊信息系统属性值的重要性度量[J];河南理工大学学报(自然科学版);2007年04期
4 李中华,施丽华,李玉茜;属性的增量赋值[J];计算机工程;1993年01期
5 ;第六章 多属性索引法[J];计算机工程与应用;1981年Z2期
6 关欣;衣晓;何友;周一宇;;一种区间属性值离散化的新方法[J];宇航学报;2009年03期
7 张艳芹;张虹;杨习贝;;区间属性值信息系统的不确定性度量[J];计算机应用与软件;2009年01期
8 程显毅;施Oz;沈学华;田宇贺;;属性和属性值组合的概念模板[J];北京大学学报(自然科学版);2013年01期
9 林宏康;范成贤;史开泉;;倒向P-推理与属性剩余发现-应用[J];计算机科学;2011年10期
10 坐看云起;《天使》人物属性攻略[J];网络与信息;2002年11期
相关会议论文 前2条
1 王宇;方滨兴;吴博;宋林海;郭岩;;结合属性分布特征的模式匹配算法[A];第五届全国信息检索学术会议论文集[C];2009年
2 张亮;胡学钢;;多层次属性值下概念格的动态转化[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
相关重要报纸文章 前4条
1 重庆 韩涛;中望CAD中块属性的制作[N];电脑报;2004年
2 7Star;教你做RM压缩程序[N];电脑报;2003年
3 北京邮电大学 张剑;通过DOM操作数据(下)[N];计算机世界;2001年
4 ;查找替换的技巧[N];中国电脑教育报;2001年
相关硕士学位论文 前10条
1 张丽芬;一种基于混合QOS的服务选择方法[D];华中师范大学;2015年
2 于芳芳;基于属性的权限访问控制研究与应用[D];河北工业大学;2015年
3 高乙童;大数据时效性关键技术的研究[D];哈尔滨工业大学;2016年
4 陈祖军;基于伪近邻及区间距离的不完备数据聚类方法[D];大连理工大学;2016年
5 梁磊;面向属性网络图的表示学习与链接预测[D];华东师范大学;2017年
6 蒋焕剑;基于深度学习的属性抽取技术研究[D];浙江大学;2017年
7 赵爽;基于敏感属性值语义的个性化匿名方法研究[D];天津财经大学;2015年
8 徐海堂;属性证书及应用研究[D];中国人民解放军信息工程大学;2005年
9 童先群;基于属性值信息熵的KNN算法改进研究[D];漳州师范学院;2010年
10 张秀丽;符号属性值的相似度学习及属性重要性研究[D];河北大学;2011年
,本文编号:1331600
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1331600.html