面向多样性检索的子主题挖掘技术的研究
本文关键词:面向多样性检索的子主题挖掘技术的研究,由笔耕文化传播整理发布。
【摘要】:信息时代的快速发展使得互联网数据呈现“井喷式”增长。作为信息检索在互联网中最成功的应用,搜索引擎已经成为用户查找信息的不可或缺的工具。然而,由于对效率,并发等系统性能的考虑,目前搜索引擎还是基于关键词的检索方式。此外用户提交的相同查询也可能有不同的查询意图。为了解决用户查询经常存在的表意模糊或歧义性等问题,明确用户的查询意图,满足用户的多样性需求,本文针对用户查询主题进行分析,提出潜在多样性子主题挖掘方法,充分考虑了相关文档集及查询日志对子主题多样性的影响。 首先,分析研究多样性子主题挖掘方法,本文提出了采用基于LCS的频繁序列挖掘算法抽取文档片段集中的候选子主题序列,同时使用《知网》及查询日志对结果进行语义聚类和排序;实验证明,该方法可有效地挖掘子主题,聚类查询意图。 其次,本文提出了一种无指导的子主题挖掘方法。该方法先在相关文档片段集中,利用ATF×PDF模型挖掘候选主题词;为保证子主题的多样性,本文基于《知网》语义相似度方法对候选主题词进行了聚类分析,进而得到潜在主题;最后,利用基于LCS的子主题组合排序算法生成多样性子主题。实验结果显示,系统平均I-rec@10,,D-nDCG@10,D#-nDCG@10分别达到0.5745,0.5714和0.573,结果表明该方法在明确查询主题表意方面取得较好效果。 最后,设计并实现了面向多样性检索的子主题挖掘系统。该系统支持用户查询检索,挖掘查询子主题,获得多样性检索结果。
【关键词】:信息检索 查询意图 多样性 子主题挖掘 潜在主题
【学位授予单位】:沈阳航空航天大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.3
【目录】:
- 摘要6-7
- Abstract7-11
- 第1章 引言11-16
- 1.1 研究背景与意义11-14
- 1.1.1 研究背景11-13
- 1.1.2 研究意义13-14
- 1.2 本文主要工作14
- 1.3 本文组织结构14-16
- 第2章 相关研究16-25
- 2.1 多样性检索16-18
- 2.2 候选子主题抽取18-21
- 2.3 子主题多样性排序21-23
- 2.4 相关评价指标23-24
- 2.5 本章小结24-25
- 第3章 基于 LCS 的子主题挖掘算法25-37
- 3.1 LCS 算法25-27
- 3.2 基于 LCS 的子主题挖掘算法27-32
- 3.2.1 语料预处理28
- 3.2.2 候选子主题挖掘28-29
- 3.2.3 子主题聚类排序29-32
- 3.3 本章实验与分析32-36
- 3.3.1 实验准备32-33
- 3.3.2 实验结果与分析33-36
- 3.4 本章小结36-37
- 第4章 无指导的子主题挖掘算法37-50
- 4.1 潜在主题挖掘37-42
- 4.1.1 候选主题词抽取37-38
- 4.1.2 候选主题词聚类38-42
- 4.2 子主题组合排序算法42-43
- 4.3 本章实验与分析43-49
- 4.3.1 实验准备43-45
- 4.3.2 实验结果与分析45-49
- 4.4 本章小结49-50
- 第5章 面向多样性检索的子主题挖掘系统设计与实现50-56
- 5.1 系统设计50-51
- 5.2 系统实现51-55
- 5.3 本章小结55-56
- 结论56-58
- 参考文献58-61
- 致谢61-62
- 攻读硕士期间发表(含录用)的学术论文62
【相似文献】
中国期刊全文数据库 前10条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 蒋凡,高俊波,张敏,王煦法;BBS中主题发现原型系统的设计与实现[J];计算机工程与应用;2005年31期
3 周亦鹏;杜军平;;基于时空情境模型的主题跟踪[J];华南理工大学学报(自然科学版);2012年08期
4 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
5 何利益;陆国锋;罗鹏;;动态新闻主题信息推荐系统设计[J];指挥信息系统与技术;2013年04期
6 关慧芬;师军;;基于本体的主题爬虫技术研究[J];计算机仿真;2009年10期
7 张宇;宋巍;刘挺;李生;;基于URL主题的查询分类方法[J];计算机研究与发展;2012年06期
8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期
9 吕聚旺;都云程;王弘蔚;施水才;;基于新型主题信息量化方法的Web主题信息提取研究[J];现代图书情报技术;2008年12期
10 朱梦麟;李光耀;周毅敏;;基于树比较的Web页面主题信息抽取[J];微型机与应用;2011年19期
中国重要会议论文全文数据库 前7条
1 吴晨;宋丹;薛德军;师庆辉;;科技主题识别及表示[A];第五届全国信息检索学术会议论文集[C];2009年
2 熊方;王晓宇;郑骏;周傲英;;ITED:一种基于链接的主题提取和主题发现系统[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 曹红;袁津生;;多领域主题搜索引擎研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 薛利;面向证券应用的WEB主题观点挖掘若干关键问题研究[D];复旦大学;2013年
中国硕士学位论文全文数据库 前10条
1 薛耀兵;科技文献中的主题发现与趋势预测[D];哈尔滨工业大学;2013年
2 陈浩;自定义主题信息抽取的研究与应用[D];大连理工大学;2008年
3 郭程;面向多样性检索的子主题挖掘技术的研究[D];沈阳航空航天大学;2014年
4 吴彦文;主题信息合理性、语境意义偏向性对汉语句子歧义消解的实验研究[D];陕西师范大学;2002年
5 戴兴虎;基于主题的学术网络构建[D];浙江大学;2013年
6 吴晓娜;基于特征、先验和约束的主题建模算法[D];苏州大学;2014年
7 邸亮;基于主题模型的个性化信息推荐[D];北京工业大学;2014年
8 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
9 徐枫;基于主题爬虫的视频教程库的研究与设计[D];广西大学;2014年
10 徐西孟;基于OODA决策循环的主题发现技术的研究与设计[D];济南大学;2011年
本文关键词:面向多样性检索的子主题挖掘技术的研究,由笔耕文化传播整理发布。
本文编号:384534
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/384534.html