当前位置:主页 > 科技论文 > 软件论文 >

基于弱监督与表示学习的关系抽取算法研究

发布时间:2018-09-04 18:56
【摘要】:我们生活在信息时代,但是从中获取有用和结构化的知识并非易事。近期的研究估计,人类已经存储了超过295艾字节(295*1018字节)的数据。大部分的文本数据以非结构化形式存在,如新闻文章、论坛与留言板、电子邮件、社交网络状态更新,和近十亿计的网页。如何有效的利用人类所产生的数据,进行深度数据挖掘与文本理解有重要意义,这些数据可以用于强化搜索结果、知识图谱补全,自动问答系统等。为了在信息中提炼出知识,本文研究了从海量非结构化文本进行关系抽取的方法,并提出了基于弱监督与表示学习的实体关系抽取方法,主要完成了以下几方面的工作:1.针对弱监督学习会引入噪声的问题,本文提出了基于模糊分类的多实例多标签学习算法。针对某个特定实体对,将多种关系和多个样本整合起来一同学习,并通过模糊分类的方法聚合句子级特征。相比其他弱监督学习方法,本文提出的方法能够提升2%以上的fl值。2.提出了基于词向量和循环神经网络进行自动特征抽取的方法。传统的特征抽取方法依赖人工经验与知识,并且是针对特定问题的设计,扩展性不强。神经网络能够自动进行特征抽取,分层对原始文本进行处理,并且不需要进行预处理。实验证明利用不同神经网络产生的特征,都对系统性能有一定提升。3.设计并实现了基于弱监督和神经网络特征提起的实体关系抽取平台。该实验平台整合了多项工具,包括文本检索、文本分析等,能够利用知识库对文本进行自动标注,学习关系抽取模型,最后输出关系抽取结果。在LDC与New York Times数据集上,本文提出的方法较传统方法,均有一定的效果提升。综上所述,本文提出的方法能够有效提升实体关系抽取系统性能,利用弱监督扩展了学习语料,通过表示学习增强了系统在不同领域的扩展性,同时能够减少预处理工作。这些内容对于关系抽取研究有一定的贡献与参考价值。
[Abstract]:We live in the information age, but it is not easy to gain useful and structured knowledge from it. Recent research has estimated that humans have stored more than 295 exabytes (295,1018 bytes) of data. Most text data exists in unstructured formats, such as news articles, forums and message boards, email, social network status updates, and nearly a billion pages. How to effectively utilize the data produced by human beings, and how to mine the deep data and understand the text is of great significance. These data can be used to strengthen the search results, complement the knowledge map, automatic question and answer system and so on. In order to extract knowledge from information, this paper studies the method of relational extraction from massive unstructured text, and proposes an entity relation extraction method based on weak supervision and representation learning. In this paper, a multi-instance and multi-label learning algorithm based on fuzzy classification is proposed to solve the problem of introducing noise into weakly supervised learning. For a particular entity pair, a variety of relationships and multiple samples are integrated together, and sentence level features are aggregated by fuzzy classification. Compared with other weakly supervised learning methods, the proposed method can increase the fl value by more than 2%. An automatic feature extraction method based on word vector and cyclic neural network is proposed. The traditional feature extraction method relies on artificial experience and knowledge, and is not extensible for specific problems. The neural network can automatically extract features and process the original text in layers without the need of preprocessing. Experiments show that using the characteristics of different neural networks, the system performance has a certain improvement. 3. 3. The entity relation extraction platform based on weak supervision and neural network feature is designed and implemented. The experimental platform integrates many tools, including text retrieval, text analysis and so on. It can use knowledge base to automatically annotate text, learn relational extraction model, and finally output the result of relational extraction. On the data sets of LDC and New York Times, the methods proposed in this paper are more effective than the traditional methods. To sum up, the proposed method can effectively improve the performance of entity relation extraction system, extend the learning corpus by using weak supervision, enhance the extensibility of the system in different fields by representation learning, and reduce the preprocessing work at the same time. These contents have certain contribution and reference value to the research of relation extraction.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 杨晓帅 ,付玫;神经网络技术让管理更轻松[J];软件世界;2000年11期

2 云中客;新的神经网络来自于仿生学[J];物理;2001年10期

3 唐春明,高协平;进化神经网络的研究进展[J];系统工程与电子技术;2001年10期

4 李智;一种基于神经网络的煤炭调运优化方法[J];长沙铁道学院学报;2003年02期

5 程科,王士同,杨静宇;新型模糊形态神经网络及其应用研究[J];计算机工程与应用;2004年21期

6 王凡,孟立凡;关于使用神经网络推定操作者疲劳的研究[J];人类工效学;2004年03期

7 周丽晖;从统计角度看神经网络[J];统计教育;2005年06期

8 赵奇 ,刘开第 ,庞彦军;灰色补偿神经网络及其应用研究[J];微计算机信息;2005年14期

9 袁婷;;神经网络在股票市场预测中的应用[J];软件导刊;2006年05期

10 尚晋;杨有;;从神经网络的过去谈科学发展观[J];重庆三峡学院学报;2006年03期

相关会议论文 前10条

1 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年

2 周树德;王岩;孙增圻;孙富春;;量子神经网络[A];2003年中国智能自动化会议论文集(上册)[C];2003年

3 罗山;张琳;范文新;;基于神经网络和简单规划的识别融合算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年

4 郭爱克;马尽文;丁康;;序言(二)[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

5 钟义信;;知识论:神经网络的新机遇——纪念中国神经网络10周年[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

6 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

7 金龙;朱诗武;赵成志;陈宁;;数值预报产品的神经网络释用预报应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

8 田金亭;;神经网络在中学生创造力评估中的应用[A];第十二届全国心理学学术大会论文摘要集[C];2009年

9 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年

10 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年

相关重要报纸文章 前10条

1 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年

2 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年

3 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年

4 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年

5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年

6 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年

7 农行浙江东阳支行 吴新国 周龙飞;银行如何创建学习型组织[N];上海金融报;2003年

8 健康时报特约记者  张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年

9 西北师范大学 李瑾瑜;校长:如何引领和促进教师学习[N];中国教育报;2008年

10 永寿县店头中学 刘俊锋;大力提倡合作学习 全面促进有效教学[N];咸阳日报;2009年

相关博士学位论文 前10条

1 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年

2 李素芳;基于神经网络的无线通信算法研究[D];山东大学;2015年

3 石艳超;忆阻神经网络的混沌性及几类时滞神经网络的同步研究[D];电子科技大学;2014年

4 王新迎;基于随机映射神经网络的多元时间序列预测方法研究[D];大连理工大学;2015年

5 付爱民;极速学习机的训练残差、稳定性及泛化能力研究[D];中国农业大学;2015年

6 李辉;基于粒计算的神经网络及集成方法研究[D];中国矿业大学;2015年

7 王卫苹;复杂网络几类同步控制策略研究及稳定性分析[D];北京邮电大学;2015年

8 张海军;基于云计算的神经网络并行实现及其学习方法研究[D];华南理工大学;2015年

9 李艳晴;风速时间序列预测算法研究[D];北京科技大学;2016年

10 陈辉;多维超精密定位系统建模与控制关键技术研究[D];东南大学;2015年

相关硕士学位论文 前10条

1 刘玉明;基于弱监督与表示学习的关系抽取算法研究[D];北京邮电大学;2016年

2 王征韬;深度神经网络压缩与优化研究[D];电子科技大学;2017年

3 章颖;混合不确定性模块化神经网络与高校效益预测的研究[D];华南理工大学;2015年

4 贾文静;基于改进型神经网络的风力发电系统预测及控制研究[D];燕山大学;2015年

5 李慧芳;基于忆阻器的涡卷混沌系统及其电路仿真[D];西南大学;2015年

6 陈彦至;神经网络降维算法研究与应用[D];华南理工大学;2015年

7 董哲康;基于忆阻器的组合电路及神经网络研究[D];西南大学;2015年

8 武创举;基于神经网络的遥感图像分类研究[D];昆明理工大学;2015年

9 李志杰;基于神经网络的上证指数预测研究[D];华南理工大学;2015年

10 陈少吉;基于神经网络血压预测研究与系统实现[D];华南理工大学;2015年



本文编号:2223056

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2223056.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ae9b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com