一个大规模数据下的语义实体挖掘与语义实体关系归并的新框架
发布时间:2017-09-08 08:07
本文关键词:一个大规模数据下的语义实体挖掘与语义实体关系归并的新框架
更多相关文章: 语义实体识别 新词识别 决策树 SVM 语义实体关系与联系
【摘要】:众所周知,大多数文本数据中的语义实体都包含着对于理解该文本的十分重要的语义信息。因此,语义实体的识别以及识别后语义实体之间关系的归并就对于那些需要使用到文本数据的语义信息的多媒体应用具有十分重要的意义。但是目前在各个领域针对语义实体的处理方法诸如语义实体识别,新词识别以及语义实体之间关系归并等仍然存在着如准确率以及召回率不够高等很多问题。为了解决这些问题,本文提出了一个两阶段的语义实体处理框架来同时解决大规模文本数据中的语义实体识别以及语义实体关系归并。在第一阶段的语义实体识别中,我们提出了一个新策略即通过集成统计特征,决策树算法(DT),以及支持向量机算法(SVM)来实现从文本中抽取语义实体。与传统的方法进行比较后,我们发现本文所提出的新策略能够更加有效地对语义实体进行识别与检测,并且对新数据中出现的语义实体十分敏感,因此能较为准确地对新词进行抽取。在第一阶段高效的从文本数据中抽取出语义实体之后,本文提出的语义实体处理框架的第二阶段即语义实体关系(SER)归并算法将对第一阶段中抽取出的语义实体进行聚类。在本文中,我们提出了一个新的分类方法并结合使用诸如相似度特征和共现概率等特征来解决聚类问题并发现语义实体之间的关系。为了验证该框架的有效性,在本文中我们通过详细及全面的实验证明了本文所提出的框架在语义实体的检测上要优于目前最好及最常用的方法,同时可以从大规模文本数据中提取出的语义实体中找出80%有关系的语义实体对。不仅如此,本文还将该框架应用到了期货价格走势预测上,通过实例验证进一步证明了该框架的有效性。
【关键词】:语义实体识别 新词识别 决策树 SVM 语义实体关系与联系
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 论文摘要6-7
- ABSTRACT7-11
- 第一章 绪论11-17
- 1.1 研究背景和意义11-12
- 1.2 研究现状12-15
- 1.3 本文提出的新算法15
- 1.4 本文的目标和贡献15
- 1.5 本文结构15
- 1.6 本文小结15-17
- 第二章 语义实体挖掘与关系归并系统框架整体介绍17-21
- 2.1 系统整体结构与使用策略介绍17-20
- 2.2 本章小结20-21
- 第三章 语义实体挖掘算法部分介绍21-30
- 3.1 语义实体识别算法中使用到的特征与抽取算法21-27
- 3.1.1 内部统计特征22-24
- 3.1.2 外部统计特征24-26
- 3.1.3 新颖性统计特征26-27
- 3.2 DT-SVM分类方法27-29
- 3.3 本章小结29-30
- 第四章 语义实体关系抽取算法部分介绍30-36
- 4.1 语义实体关系抽取中使用到的特征30-34
- 4.2 语义实体关系抽取算法34-35
- 4.3 本章小结35-36
- 第五章 期货数据中语义实体挖掘与语义实体关系归并框架的应用36-45
- 5.1 期货数据价格的整体预测框架36-37
- 5.2 期货数据预测模型具体策略分析37-45
- 5.2.1 原始数据处理与特征抽取38-43
- 5.2.2 原始数据处理与特征抽取43-45
- 第六章 实验以及案例分析45-57
- 6.1 新闻数据实验设计与验证45-52
- 6.2 期货数据实验设计与验证52-55
- 6.3 本章小结55-57
- 第七章 总结与展望57-58
- 附录58-59
- 参考文献59-63
- 致谢63
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王e,
本文编号:812854
本文链接:https://www.wllwen.com/jingjilunwen/qihuoqq/812854.html