在线知识库累积引文推荐技术研究
发布时间:2017-03-26 00:00
本文关键词:在线知识库累积引文推荐技术研究,,由笔耕文化传播整理发布。
【摘要】:随着互联网技术的蓬勃发展,知识的存储介质从传统图书馆转向了在线知识库(如维基百科,百度百科等),人类管理和获取知识的方式也逐渐从线下转向线上。在线知识库(本文中简称为知识库)已经成为各项互联网应用的重要数据支持来源。目前在线知识库的维护和更新主要依赖于人工编辑,导致现有的大规模在线知识库很难及时更新。知识库的时效性已经成为制约知识库广泛应用的瓶颈。在线知识库累积引文推荐技术目的是利用计算机强大的信息处理能力,从海量互联网文档中过滤出与知识库实体相关的文档,并将其中真正重要的文档作为引文推荐给知识库维护人员,加快知识库的构建和更新。本论文的主要工作和贡献总结如下:首先,介绍了知识库构建加速和累积引文推荐的研究背景,较为全面地总结了该领域的研究成果及其优缺点,为本文的后续工作提供了理论基础。第二,介绍了知识库累积引文推荐任务和机器学习方法,包括查询扩展、分类和排序学习;为机器学习方法设计了语义特征和时序特征,并使用标准数据集进行了验证。第三,由于某些知识库实体没有足够多的训练数据,无法为其训练相关模型,本文提出一种全局判别模型,利用所有的训练数据训练一个通用分类模型,该方法在TREC-KBA-2013国际评测中取得了三项第一。由于完全忽略了实体之间的联系,全局模型很难保证为每个目标实体实现理想的引文推荐效果。为了解决这个问题,在全局模型的基础上引入表示实体类别的隐含层,本文实现了一种实体类别依赖的混合判别模型。该混合模型可以充分利用训练数据,建模实体和隐含类别之间的联系,灵活地处理不同类型的目标实体和训练集中未出现的实体,泛化能力更强。第四,考虑到引文推荐任务中引文的质量问题,本文通过在全局判别模型中引入表示文档类别的隐含变量,提出一种文档类别依赖的混合判别模型。通过考虑文档的来源和文档的主题分布,建立了文档和其隐含类型之间的概率语义分布,使得模型可以灵活处理不同类型的文档。实验结果表明该模型能显著提高引文推荐的准确率和精确度。第五,详细研究了知识库引文推荐的冷启动问题。现有引文推荐方法主要处理目标实体已经存在于知识库中的情况,如果目标实体在知识库中没有主页,监督式学习方法中使用的特征集会面临稀疏问题。针对这一问题,本文提出一种基于实体相关事件的语句聚类和文档排序结合的方法,首先抽取文档中的提及目标实体的语句进行聚类,然后在语句级别进行特征抽取,最后进行文档排序学习。实验结果表明该方法能有效冷启动引文推荐中的特征向量稀疏问题。
【关键词】:知识库构建加速 累积引文推荐 信息过滤 混合模型 冷启动
【学位授予单位】:北京理工大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.3;G250.74
【目录】:
- 摘要5-7
- Abstract7-17
- 第1章 绪论17-33
- 1.1 研究背景和意义17-18
- 1.2 国内外研究现状及发展趋势18-29
- 1.2.1 实体链接19-21
- 1.2.2 信息过滤21-23
- 1.2.3 查询扩展23-26
- 1.2.4 事件检测26-27
- 1.2.5 累积引文推荐27-29
- 1.3 论文的组织结构29-33
- 第2章 在线知识库累积引文推荐33-55
- 2.1 问题描述33-34
- 2.2 数据集34-37
- 2.2.1 目标实体集合35
- 2.2.2 文档集合35
- 2.2.3 标注情况35-37
- 2.3 文档过滤37-39
- 2.3.1 别名扩展38
- 2.3.2 查询扩展38-39
- 2.4 特征选择39-46
- 2.4.1 语义特征39-41
- 2.4.2 时序特征41-46
- 2.4.3 时序特征表示46
- 2.5 相关性模型46-48
- 2.5.1 查询扩展46-47
- 2.5.2 分类方法47
- 2.5.3 排序学习47-48
- 2.6 实验设计48-52
- 2.6.1 任务场景48
- 2.6.2 评价指标48-49
- 2.6.3 文档过滤性能49-50
- 2.6.4 相关性模型评价50-52
- 2.7 特征分析52-53
- 2.8 本章小结53-55
- 第3章 实体类别依赖的混合判别模型55-73
- 3.1 引言55-56
- 3.2 任务描述56-57
- 3.3 全局判别模型57-58
- 3.4 考虑实体类别的混合判别模型58-62
- 3.4.1 模型参数估计60-61
- 3.4.2 混合模型优势61-62
- 3.4.3 隐变量数目62
- 3.5 特征选择62-64
- 3.5.1 实体文档特征62
- 3.5.2 实体类别特征62-64
- 3.6 实验设计64-70
- 3.6.1 数据集64-65
- 3.6.2 任务场景65
- 3.6.3 对比方法65-66
- 3.6.4 隐变量数目分析66
- 3.6.5 整体分析66-67
- 3.6.6 细粒度比较67-68
- 3.6.7 泛化能力68-70
- 3.7 本章小结70-73
- 第4章 文档类别依赖的混合判别模型73-85
- 4.1 引言73-74
- 4.2 任务描述74
- 4.3 全局判别模型74-75
- 4.4 考虑文档类别的混合判别模型75-78
- 4.4.1 参数估计76-77
- 4.4.2 模型对比77-78
- 4.5 特征选择78-80
- 4.5.1 基于主题分布的特征78-79
- 4.5.2 基于文档来源的特征79-80
- 4.6 实验设计80-83
- 4.6.1 数据集80
- 4.6.2 任务场景80
- 4.6.3 方法对比80-81
- 4.6.4 评价指标81-82
- 4.6.5 实验结果82-83
- 4.6.6 隐变量数目分析83
- 4.7 本章小结83-85
- 第5章 引文推荐冷启动问题85-97
- 5.1 引言85-86
- 5.2 任务定义86
- 5.3 任务特点86-87
- 5.4 相关性模型87-89
- 5.4.1 基于实体相关事件的语句聚类87-88
- 5.4.2 文档排序88-89
- 5.5 特征选择89-91
- 5.5.1 时间范围89
- 5.5.2 头衔/职业特征89-91
- 5.5.3 动作模式91
- 5.6 模型调整91-93
- 5.7 实验设计93-95
- 5.7.1 数据集93-94
- 5.7.2 任务场景94
- 5.7.3 实验方法94-95
- 5.7.4 实验结果分析95
- 5.8 本章小结95-97
- 第6章 总结97-101
- 6.1 本文工作总结97-98
- 6.2 本文主要创新点98
- 6.3 课题研究展望98-101
- 参考文献101-111
- 攻读学位期间发表的学术论文目录111-113
- 攻读学位期间参与的项目113-115
- 致谢115-117
- 作者简介117
【参考文献】
中国期刊全文数据库 前6条
1 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期
2 孙吉贵;刘杰;赵连宇;;聚类算法研究[J];软件学报;2008年01期
3 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
4 丁国栋;白硕;王斌;;一种基于局部共现的查询扩展方法[J];中文信息学报;2006年03期
5 崔航,文继荣,李敏强;基于用户日志的查询扩展统计模型[J];软件学报;2003年09期
6 徐小琳,阙喜戎,程时端;信息过滤技术和个性化信息服务[J];计算机工程与应用;2003年09期
本文关键词:在线知识库累积引文推荐技术研究,由笔耕文化传播整理发布。
本文编号:267937
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/267937.html