校园对象搜索系统及实体分析和短文本聚类的研究和实现
发布时间:2017-04-18 18:19
本文关键词:校园对象搜索系统及实体分析和短文本聚类的研究和实现,由笔耕文化传播整理发布。
【摘要】:随着大数据时代的来临,如何让用户在日益膨胀的数据中快速精准地获取想要的信息已经成为越来越重要的问题。垂直领域的专业搜索和信息整合的实体搜索是未来搜索引擎的两大发展方向。垂直搜索通过对行业知识进行深度挖掘,提供领域内权威信息;实体搜索以实体作为研究单元,对实体信息进行整合,直接返回给用户答案。 本课题就是基于以上两点,以校园实体作为研究对象,搭建一个对校园信息进行深度整合的平台级系统,一方面可以为在校师生提供全面精准的垂直搜索服务,另一方面可以基于平台数据对校园信息进行深入挖掘并对研究成果进行可视化展示。本文完成的主要工作如下: 首先,基于课题任务和目标,对校园对象搜索系统的研究问题进行了分析,并给出总体设计方案。根据数据整合的特点,设计出多个特色功能,包括“老师名片”、“关系图谱”、“活动日历”、“人物公交”和“社交话题”等;研究相应功能的技术实现方案并对架构进行整体设计和对模块进行合理划分。 其次,完成系统垂直搜索框架的设计与部分重要模块的实现。主要从数据采集、数据加工和数据检索三方面,对实际场景的应用策略问题进行研究,并利用开源工具完成系统离线部分的开发工作。 然后,针对“老师名片”和“活动日历”功能所涉及的实体属性抽取问题,实现一种基于触发词的规则模板算法,并在系统中有很好的应用效果。 另外,针对“关系图谱”和“人物公交”功能所涉及的实体关系挖掘问题,实现一种基于pagerank思想的用户权威度计算方法,实验结果证明了其有效性, 最后,针对“社交话题”功能所涉及的短文本聚类技术,提出一种主题词检测和亲近词挖掘的算法,和实现一种基于LDA的主题模型,实验结果证明两者的有效性并结合实际应用场景进行对比分析。
【关键词】:垂直搜索 实体信息抽取 用户权威度 短文本聚类 LDA
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1
【目录】:
- 摘要4-5
- ABSTRACT5-7
- 目录7-9
- 第一章 绪论9-13
- 1.1 课题背景9
- 1.2 研究现状9-11
- 1.2.1 实体搜索现状9-10
- 1.2.2 垂直搜索现状10-11
- 1.3 研究内容11
- 1.4 论文结构11-13
- 第二章 校园对象搜索系统的任务分析与架构设计13-18
- 2.1 校园对象搜索系统的研究任务和研究目标13
- 2.2 数据来源的分析与设定13-14
- 2.3 基于整合数据的特色功能设计14-15
- 2.4 功能实现的技术方案分析15-16
- 2.5 系统架构设计与模块划分16-18
- 第三章 垂直搜索技术在系统中的设计与实现18-31
- 3.1 数据采集部分18-23
- 3.1.1 数据获取方式18-20
- 3.1.2 系统爬虫抓取策略20-21
- 3.1.3 系统爬虫更新策略21-22
- 3.1.4 系统爬虫主题过滤策略22-23
- 3.2 数据加工部分23-28
- 3.2.1 网页信息结构化模块24-26
- 3.2.2 预处理与在线服务的分词模块26
- 3.2.3 索引库的建立与更新策略26-28
- 3.3 数据检索部分28-31
- 3.3.1 向量空间模型和概率检索模型28-29
- 3.3.2 本系统检索部分的模块设计29-31
- 第四章 实体分析技术在系统中的研究与实现31-44
- 4.1 实体属性信息的抽取模块31-38
- 4.1.1 半结构化网页的信息抽取技术32-33
- 4.1.2 老师名片和活动日历功能的信息抽取算法研究与应用33-38
- 4.2 实体之间的关系挖掘模块38-44
- 4.2.1 用户之间相似度算法研究与实现39-40
- 4.2.2 用户权威度的算法研究与实现40-44
- 第五章 短文本聚类技术在系统中的研究与实现44-53
- 5.1 主题词检测和亲近词挖掘算法的实现44-48
- 5.1.1 数据预处理44-45
- 5.1.2 主题词检测45
- 5.1.3 亲近词挖掘45-46
- 5.1.4 算法实现与实验分析46-48
- 5.2 基于LDA模型的短文本聚类技术的应用48-53
- 5.2.1 LDA模型的生成过程49-51
- 5.2.2 数据清洗和特征选择51
- 5.2.3 模型训练与实验分析51-53
- 第六章 校园对象搜索系统的工程实现与成果展示53-59
- 6.1 系统整体架构的实现53-54
- 6.2 系统开发采用的开源工具介绍54-55
- 6.3 系统基础性部分的成果展示55-56
- 6.4 系统扩展性部分的成果展示56-59
- 第七章 总结与展望59-61
- 7.1 总结59
- 7.2 展望59-61
- 参考文献61-63
- 致谢63
【参考文献】
中国期刊全文数据库 前10条
1 范晨熙;黄理灿;李雪利;;基于Lucene的BM25模型的评分机制的研究[J];工业控制计算机;2013年03期
2 郑凯明;李义杰;;垂直搜索引擎及其应用价值[J];信息技术;2008年04期
3 张丹;;中文分词算法综述[J];黑龙江科技信息;2012年08期
4 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
5 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
6 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期
7 唐晓波;王洪艳;;基于潜在语义分析的微博主题挖掘模型研究[J];图书情报工作;2012年24期
8 王冬;雷景生;;一种基于PageRank的页面排序改进算法[J];微电子学与计算机;2009年04期
9 赵文清;侯小可;;基于词共现图的中文微博新闻话题识别[J];智能系统学报;2012年05期
10 文必龙;唐苏龙;张浩;;主题搜索引擎中特征模型技术的研究[J];计算机技术与发展;2013年04期
本文关键词:校园对象搜索系统及实体分析和短文本聚类的研究和实现,,由笔耕文化传播整理发布。
本文编号:315495
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/315495.html