当前位置:主页 > 科技论文 > 软件论文 >

面向社会网络应用的人物关系抽取方法研究

发布时间:2017-06-26 11:06

  本文关键词:面向社会网络应用的人物关系抽取方法研究,由笔耕文化传播整理发布。


【摘要】:人物关系抽取是信息抽取领域的热门研究方向之一,指的是从非结构化或半结构化的文本中识别用户感兴趣的人物关系,并以结构化的形式进行存储的过程。在这个信息爆炸的大数据时代,需要信息抽取技术快速准确地发现形式多样的人物关系,为社会网络及其他相关领域的应用研究奠定基础。本文对基于堆叠降噪自动编码器的人物关系抽取方法进行了深入研究,并在此基础上对基于人物关系抽取技术的社会网络构建方法进行了研究,主要研究内容归纳如下:首先,提出了基于互动百科的人物关系语料自动生成系统的设计方案,对数据抓取、网页正文抽取、文本分析处理、人物关系语料生成四个模块进行了详细的论述与设计;提出了由语言技术平台(LTP)和NLPIR汉语分词系统相结合并协同互动百科进一步确认的人名对识别算法以及基于互动百科的人物关系类型识别算法。其次,研究了基于堆叠降噪自动编码器的人物关系抽取方法,并通过实验的方式对该方法的性能进行了评估。在句子级别的人物关系抽取中,针对特征词过少导致特征向量高度稀疏这一问题,提出了基于同义词词林扩展特征词规模的缓解方法;考察了词特征、词性特征、相邻位置特征、依存句法特征和语义特征对人物关系抽取性能的贡献;探究了不同网络深度的堆叠降噪自动编码器的人物关系识别效果。最后,研究了基于人物关系抽取技术的社会网络构建方法,构建了适合大规模社会网络分析应用的社会网络矩阵并通过社群图的形式对社会网络的构建效果进行了展示。本文提出的基于互动百科的人物关系语料自动生成系统,为后续的基于堆叠降噪自动编码器的人物关系抽取模型的参数训练以及性能测试所需的语料提供了一个语料自动获取工具;提出的基于人物关系抽取技术进行社会网络构建的方法适用于利用大规模互联网数据进行社会网络构建,为社会网络的进一步分析应用奠定了基础。
【关键词】:社会网络 人物实体识别 人物关系抽取 降噪自动编码器 深度学习
【学位授予单位】:西藏大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要3-5
  • ABSTRACT5-10
  • 第一章 绪论10-17
  • 1.1 研究背景与意义10-11
  • 1.2 国内外研究现状及面临的问题11-15
  • 1.2.1 人物关系抽取研究现状11-13
  • 1.2.2 社会网络构建研究现状13-14
  • 1.2.3 堆叠降噪自动编码器研究现状14-15
  • 1.3 本文的研究内容15-16
  • 1.4 本文的组织结构16-17
  • 第二章相关知识概述17-26
  • 2.1 堆叠降噪自动编码器17-19
  • 2.2 爬虫技术19-20
  • 2.3 网页正文抽取技术20-22
  • 2.4 自然语言处理22-25
  • 2.4.1 分词22-23
  • 2.4.2 句法分析23
  • 2.4.3 语义角色标注23-24
  • 2.4.4 同义词词林24-25
  • 2.5 本章小结25-26
  • 第三章基于互动百科的人物关语料自动生成系统设计26-39
  • 3.1 系统工作流程26-27
  • 3.2 系统框架设计27-28
  • 3.3 数据抓取模块的设计28-32
  • 3.3.1 数据源网站的选择29
  • 3.3.2 爬虫系统设计29-32
  • 3.4 网页正文抽取模块的设计32-33
  • 3.5 文本分析处理模块的设计33-36
  • 3.6 人物关系语料生成模块的设计36-38
  • 3.7 本章小结38-39
  • 第四章基于SDAs的人物关系抽取方法研究39-63
  • 4.1 特征抽取39-48
  • 4.1.1 向量空间模型39-40
  • 4.1.2 特征向量构造40-48
  • 4.2 基于SDAs的人物关系识别模型48-52
  • 4.2.1 SDAs网络预训练48-50
  • 4.2.2 SDAs网络微调50-51
  • 4.2.3 基于SDAs网络进行人物关系抽取51-52
  • 4.3 实验结果与分析52-58
  • 4.3.1 单项特征对人物关系抽取的效果53-56
  • 4.3.2 多个特征组合对人物关系抽取的效果56-57
  • 4.3.3 SDAs网络的深度对人物关系抽取的效果57-58
  • 4.4 基于人物关系抽取技术的社会网络构建58-61
  • 4.4.1 社会网络59-60
  • 4.4.2 社会网络构建流程60-61
  • 4.4.3 社会网络效果展示61
  • 4.5 本章小结61-63
  • 第五章总结与展望63-65
  • 5.1 研究工作总结63
  • 5.2 下一步工作展望63-65
  • 参考文献65-71
  • 攻读学位期间公开发表的论文71-72
  • 攻读学位期间参与的科研项目72-73
  • 致谢73

【相似文献】

中国期刊全文数据库 前10条

1 石桢;姚天f ;;一种基于统计和规则的核心地名抽取方法[J];微型电脑应用;2013年02期

2 张世辉;一种新的基于距离的汉字笔画抽取方法[J];计算机工程;2003年14期

3 王大亮;涂序彦;郑雪峰;佟子健;;多策略融合的搭配抽取方法[J];清华大学学报(自然科学版);2008年04期

4 杨建明;;关系抽取方法研究[J];电子技术;2009年04期

5 孙继鹏;贾民;刘增宝;;一种面向文本的概念抽取方法的研究[J];计算机应用与软件;2009年09期

6 郑伟;吕建新;张建伟;;文本分类中特征预抽取方法研究[J];情报科学;2011年01期

7 肖明军,张巍,邹翔,蔡庆生;一种多策略联合信息抽取方法[J];小型微型计算机系统;2005年04期

8 郝博一;夏云庆;邬晓钧;郑方;刘轶;;基于泛化和繁殖的自举式意见目标抽取方法[J];清华大学学报(自然科学版);2009年S1期

9 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[J];计算机工程;2011年12期

10 蔡虹,叶水生;基于KPS的Web信息抽取[J];计算机与现代化;2005年06期

中国重要会议论文全文数据库 前10条

1 宋涛;李素建;;基于流形排序的领域词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

2 卞真旭;;一种关键词抽取方法研究[A];2011年安徽省智能电网技术论坛论文集[C];2011年

3 罗斐;毛宇光;;基于领域分类的查询接口模式抽取方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

4 栗春亮;朱艳辉;徐叶强;;中文产品评论中属性词抽取方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

5 刘昊;王健;林鸿飞;;一种模板与图核融合的蛋白质关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

6 翁伟;王厚峰;;基于LDA的关键词抽取方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

7 何莉;林鸿飞;;一种面向WEB的生物医学领域英汉术语翻译对抽取方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 左云存;宗成庆;;基于HMM的短语翻译对抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

9 王裴岩;张桂平;白宇;;一种基于核函数的技术关键词连接关系抽取方法[A];第六届全国信息检索学术会议论文集[C];2010年

10 蒲宇达;关毅;王强;;基于数据挖掘思想的网页正文抽取方法的研究[A];第三届学生计算语言学研讨会论文集[C];2006年

中国博士学位论文全文数据库 前1条

1 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年

中国硕士学位论文全文数据库 前10条

1 洪军建;面向社会网络应用的人物关系抽取方法研究[D];西藏大学;2016年

2 吕云云;基于集成学习的中文观点句抽取方法研究[D];山西大学;2013年

3 杨云;基于句法结构的评价对象抽取方法研究[D];东北师范大学;2015年

4 方莹;基于句子聚类的信息抽取方法研究[D];山西大学;2005年

5 徐晓明;面向手机用户的社团抽取方法研究[D];吉林大学;2014年

6 陈倩;基于特征模型的跨领域信息抽取方法研究[D];上海大学;2015年

7 李震;基于聚类的事件蕴涵抽取方法研究与实现[D];哈尔滨工业大学;2011年

8 刘骁;基于产品评论的意见抽取方法研究[D];黑龙江大学;2015年

9 王立;中文复述模板及搭配抽取方法研究[D];华中师范大学;2013年

10 张文文;网络文本观点句抽取方法研究[D];国防科学技术大学;2012年


  本文关键词:面向社会网络应用的人物关系抽取方法研究,由笔耕文化传播整理发布。



本文编号:485875

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/485875.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户202ec***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com