融合PAM主题模型的领域历史沿革信息抽取方法
发布时间:2017-08-21 02:24
本文关键词:融合PAM主题模型的领域历史沿革信息抽取方法
更多相关文章: 信息抽取 历史沿革 混合卷积树核 TextRank PAM
【摘要】:历史沿革信息是包含某一事物或者概念发展演化过程的信息,对于那些概念种类繁多、概念演变演化迅速的领域,如软件工程、计算机技术等,进行历史沿革信息的抽取并构建历史沿革信息知识库,有助于领域知识的获取、复用及推理,并对很多领域都有重要的应用价值。同时,网络维基百科所包含的丰富内容,有很高的应用价值,故本文以维基百科为数据来源进行历史沿革信息的抽取。针对网络百科中领域历史沿革信息抽取的问题,本文提出一种卷积树核和PAM主题模型相结合的历史沿革信息抽取方法,该方法首先通过构建语句的句法分析树,在此基础上计算混合卷积树核来抽取动词-实体关系,以维基百科搜索软件工程领域相关的3728个页面,再利用相应的规则筛选过滤后等到4069个句子为实验基础,进行混合卷积树核的实验,其准确率达到65.35%,实验结果表明,该方法能达到对维基百科软件工程领域历史沿革相关概念及其关系的精细抽取,但该方法对于不规范文本的抽取效果不理想,在没有进行大量的文本筛选及预处理之前,其抽取的准确率会大大降低;本文又基于PAM主题模型将历史沿革信息、作为一种特殊的主题进行建模,抽取与历史沿革主题相关的概念,在同样3728个页面所构造的文档集的基础上进行实验,对所有网络文档集进行建模并抽取历史沿革主题相关的概念,其准确率达到64.69%,基于PAM的抽取方法无需过多依赖文本的规范程度,相比于混合卷积树核的方法更适合于网络文本的处理。在此基础上,又与改进的TextRank算法和主题偏好TextRank算法相结合,进一步提高了在抽取历史沿革相关概念上的抽取效果,从而可以大大提高历史沿革信息抽取的准确度。
【关键词】:信息抽取 历史沿革 混合卷积树核 TextRank PAM
【学位授予单位】:内蒙古师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 中文摘要4-5
- ABSTRACT5-9
- 第1章 引言9-15
- 1.1 研究背景9-10
- 1.1.1 问题来源9-10
- 1.2 意义与应用10-11
- 1.3 国内外相关研究11-13
- 1.3.1 实体抽取11-12
- 1.3.2 实体关系抽取12-13
- 1.4 研究内容及工作13
- 1.5 论文结构13-15
- 第2章 历史沿革信息抽取相关介绍15-17
- 2.1 历史沿革信息的表达15
- 2.2 基于网络百科的历史沿革信息抽取策略15-17
- 第3章 基于混合卷积树核与改进TextRank的历史沿革信息抽取17-22
- 3.1 混合卷积树核的计算17-18
- 3.2 基于混合卷积树核的实体-动词关系抽取18-20
- 3.3 改进TextTank算法抽取关键实体20-22
- 第4章 融合PAM和主题偏好TextRank的历史沿革信息抽取22-29
- 4.1 PAM概率模型介绍22-25
- 4.2 基于PAM构建历史沿革主题信息25-27
- 4.2.1 历史沿革主题特征25-26
- 4.2.2 加入历史沿革主题特征的Gibbs采样26-27
- 4.3 主题偏好TextRank27-29
- 第5章 实验结果与分析29-38
- 5.1 混合卷积树核抽取方法实验及结果分析29-32
- 5.2 基于PAM的实验过程及结果分析32-36
- 5.3 两种方法的对比分析36-38
- 第6章 总结与展望38-40
- 6.1 全文总结38-39
- 6.2 工作展望39-40
- 参考文献40-42
- 致谢42-43
- 攻读学位期间发表的科研论文及学术成果43
本文编号:710291
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/710291.html