面向校园对象的实体搜索和社会化搜索系统的研究、设计和实现
发布时间:2017-10-29 14:12
本文关键词:面向校园对象的实体搜索和社会化搜索系统的研究、设计和实现
更多相关文章: 实体搜索 实体关联度 词激活力 实体发现 实体关系
【摘要】:大数据时代对海量多样化数据的快速处理提出了很高的要求。虽然实体搜索引擎已经在百度、微软等应用产品中广泛使用,但对于组织来说,组织内部的实体信息在全网搜索中的召回率和准确率比较低。导致用户关于组织信息的学习率低,查找全面信息的困难度增加。他们需要一种自动化的聚合工具,提高他们了解组织信息的效率。 本课题的主要工作集中在针对一个面向校园对象的实体和社会化搜索引擎(COSE)的创新性设计、实现和关键算法和模型研究上,论文内容主要包括: 1.本课题以“北京邮电大学”为例,设计了COSE的系统架构,以及实体搜索和社会化搜索两个模块,为用户提供有关北邮的教师、学生、课程、常见问题等实体检索和微博话题聚类、用户展示和搜索、微博搜索等特色功能,深入分析了组织成员对内部搜索的需求,创新地提出了组织内部实体的分类和特征,有效帮助北邮用户在一个网站了解到与北邮相关的聚合信息。 2.在实体关联度算法研究中,本文改进了局部共现关联度算法,使关联度结果分布更均匀,减缓了衰减。本文提出了基于词项距离和共现度的几种算法,并对所有的算法做了实验和对比,总结出不同算法的应用场景。 3.本文还创新性的提出了组织内实体的发现模型,该模型使用词激活力算法,经标注的语料统计,得出一套阈值系统,有效的提取了组织内的产品、人物、技术规格等实体和属性。效果优于Stanford NER工具包。本文还参考词激活力,提出挖掘组织内人物实体关联的算法。 4.最后本文设计了数据收集和过滤两个关键模块,并实现了整个系统,展示了系统的实体搜索和社会化搜索等特色功能,并根据系统的用户搜索日志统计出了常见的系统应用场景。
【关键词】:实体搜索 实体关联度 词激活力 实体发现 实体关系
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 绪论8-15
- 1.1 研究背景8-9
- 1.2 研究问题和意义9-10
- 1.3 国内外发展现状10-13
- 1.3.1 文本挖掘软件现状10-12
- 1.3.2 社会媒体的数据分析12
- 1.3.3 面向对象的搜索引擎12-13
- 1.4 本论文的主要研究内容13-14
- 1.5 本论文章节安排14-15
- 第二章 基于校园对象的实体搜索和社会化搜索系统的设计15-27
- 2.1 对象和实体的分析研究15-21
- 2.1.1 组织对象和实体的定义15-16
- 2.1.2 实体的分类16
- 2.1.3 实体的特征16-18
- 2.1.4 实体搜索18-20
- 2.1.5 学习的概念20-21
- 2.2 系统整体和模块设计21-24
- 2.2.1 整个系统设计21-22
- 2.2.2 实体搜索模块设计22-23
- 2.2.3 社会化搜索模块设计23-24
- 2.3 系统特点和功能24-26
- 2.4 系统的关键问题26-27
- 第三章 基于改进词项距离的实体关联度的研究27-43
- 3.1 实体关联度计算流程27-30
- 3.1.1 文本预处理27-28
- 3.1.2 计算流程28-30
- 3.2 基于局部上下文共现的关联度算法30-33
- 3.2.0 基于局部上下文共现的查询扩展30-31
- 3.2.1 算法描述31-32
- 3.2.2 C1实验结果分析32-33
- 3.3 基于改进的局部共现的关联度算法33-34
- 3.3.1 改进算法描述33-34
- 3.3.2 C2实验结果分析34
- 3.4 基于词项距离的关联度算法34-37
- 3.4.1 基于词项距离求和的算法描述34-35
- 3.4.2 C3实验结果分析35-36
- 3.4.3 基于词项平均距离的算法描述36
- 3.4.4 C4实验结果分析36-37
- 3.5 基于词激活力的关联度算法37-39
- 3.5.1 词激活力及相关算法描述37-38
- 3.5.2 C5、C6、C7实验结果对比分析38-39
- 3.6 7种算法的对比测试与分析39-42
- 3.6.1 关联度分布图对比39-40
- 3.6.2 关键词对比分析40-42
- 3.7 本章小结42-43
- 第四章 词激活力在实体发现和关联中的应用43-56
- 4.1 词激活力的概念43-45
- 4.1.1 词激活力算法43-44
- 4.1.2 亲和度算法44-45
- 4.2 词激活力在英文实体发现中的应用45-54
- 4.2.1 英文实体发现的需求分析45
- 4.2.2 词激活力发现组织相关实体的流程设计45-46
- 4.2.3 Stanford NER工具的抽取结果46-47
- 4.2.4 waf值在(0.1,1]域值内的分布规律47-50
- 4.2.5 阈值判定系统50-51
- 4.2.6 第一、二次WAF后的词频较大的词项信息51-54
- 4.3 词激活力在人物实体关联中的应用54-56
- 4.3.1 词激活力在用户亲近度中的应用54-55
- 4.3.2 词激活力在用户代价中的应用55-56
- 第五章 面向校园对象的实体搜索和社会化搜索系统的实现56-66
- 5.1 系统流程图56-57
- 5.2 数据收集模块的设计与实现57-60
- 5.2.1 微博爬虫模块的设计思路57-58
- 5.2.2 微博爬虫模块的实现58-59
- 5.2.3 人人网爬虫模块的设计和实现59-60
- 5.3 数据过滤模块的设计与实现60-63
- 5.3.1 数据过滤模块的需求分析60
- 5.3.2 查询扩展词作为关键词的过滤60-61
- 5.3.3 分类器的设计与实现61-63
- 5.4 系统功能展示63-66
- 5.4.1 整体功能介绍63-64
- 5.4.2 实体搜索的设计64
- 5.4.3 人物公交的设计64-65
- 5.4.4 常见应用场景65-66
- 第六章 总结与展望66-67
- 6.1 全文总结66
- 6.2 未来展望66-67
- 参考文献67-69
- 致谢69
【参考文献】
中国期刊全文数据库 前10条
1 任永功;范丹;武佳林;;基于语义关联树的分类查询扩展算法[J];计算机科学;2009年09期
2 胡金柱;舒江波;姚双云;周星;吴锋文;肖升;;面向中文信息处理的复句关系词提取算法研究[J];计算机工程与科学;2009年10期
3 罗建利;;基于用户兴趣的局部上下文分析方法[J];计算机应用研究;2007年04期
4 黄名选;严小卫;张师超;;查询扩展技术进展与展望[J];计算机应用与软件;2007年11期
5 王艳阁;;面向微博爬虫系统的分析[J];河南科技;2013年04期
6 邹鸿程;周刚;杨亚强;李旭东;;中文微博数据净化算法比较研究[J];计算机工程;2012年20期
7 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
8 陈磊;董碧丹;张峰;;操作型商业智能综述[J];计算机工程与设计;2010年07期
9 张永田;徐蔚然;汪浩;;基于词激活力的自动词发现[J];软件;2012年12期
10 王旭阳;萧波;;基于概念关联度的智能检索研究[J];计算机工程与设计;2013年04期
,本文编号:1113302
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1113302.html