基于用户检索意图的元搜索引擎研究
本文关键词:基于用户检索意图的元搜索引擎研究,由笔耕文化传播整理发布。
【摘要】:网络数据每天都以人们所无法想象的速度衍生,网络数据的海量生产与高速传播,已使现有信息检索技术显得不尽人意。虽然信息检索水平已得到了很大的提高,然而面对网络数据的爆炸式增长,各检索工具的覆盖面、查准率逐步下滑。海量数据背景下,现有的搜索引擎已经完全不能满足用户对信息检索系统“准确性”、“高效性”的检索需求。为了获取准确的信息,用户只能通过花费大量时间,多次调用不同的检索工具。元搜索引擎的出现在一定程度上缓和了单个搜索引擎“查全率”低的矛盾,但以冗长的结果列表形式为用户呈现出各搜索引擎的检索结果,使得用户再次陷入“查询结果过载”的困境。为有效地提高检索系统的“查准率”、“查全率”,将数据挖掘、机器学习、人工智能技术应用于信息检索,实现检索工具的人性化、智能化已成为解决信息获取矛盾的新方案。构建中文搜索引擎,其中一项重要的技术指标就是:查询语句的语义理解,通过对查询语句进行语义分析,明确用户实际的信息需求。基于用户查询意图提供信息查找服务可以极大程度地提高查询结果的质量。元搜索引擎的构建必须明确信息检索的工作过程和各机制的内部实现原理,了解国内外关于元搜索的研究和发展水平,同时还应把握信息检索工具今后的发展趋势。本论文的主要研究工作为:首先,基于自然语言处理技术分析用户检索意图,明确用户查询目的,提取用户查询关键词;基于开放目录树,分析用户检索主题,然后依据主题相关性为用户提供搜索引擎调度策略;其次,基于投票理论计算各记录的全局相关性;然后,基于改进的后缀树算法对Web检索结果进行层次化聚类,利用特征词的共现频率和用户查询意图关键词提取类标识,依次递归生成层次化聚类结果。
【关键词】:元搜索 用户意图识别 层次化聚类
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-17
- 1.1 研究背景与意义10-12
- 1.2 相关研究进展和文献综述12-15
- 1.2.1 识别用户检索意图12-13
- 1.2.2 成员搜索引擎调度策略13-14
- 1.2.3 检索结果的合成显示14-15
- 1.3 论文的主要研究内容15-16
- 1.4 论文结构16-17
- 第2章 相关技术概述17-25
- 2.1 搜索引擎17-21
- 2.1.1 搜索引擎的结构与原理17-18
- 2.1.2 搜索引擎的分类18-19
- 2.1.3 检索结果的排序19-20
- 2.1.4 浅析第三代搜索引擎20-21
- 2.2 元搜索引擎21-22
- 2.2.1 元搜索引擎的结构与原理21
- 2.2.2 元搜索引擎的分类21-22
- 2.2.3 元搜索引擎的发展趋势22
- 2.3 聚类技术22-24
- 2.4 本章小结24-25
- 第3章 检索意图识别与调度策略25-38
- 3.1 检索模型25-26
- 3.2 用户检索意图的理解与识别26-32
- 3.2.1 语义复杂度分析27-29
- 3.2.2 多关键词分析29-32
- 3.2.3 用户检索信息的融合32
- 3.3 成员搜索引擎调度策略32-37
- 3.3.1 成员搜索引擎选择算法33-34
- 3.3.2 主题相关性调度34-37
- 3.4 本章小结37-38
- 第4章 结果的整合与层次显示38-51
- 4.1 整合算法简述38-41
- 4.1.1 基于位置信息的整合方法38-39
- 4.1.2 基于相关度的整合方法39-40
- 4.1.3 基于内容的整合方法40
- 4.1.4 检索结果的去重40-41
- 4.2 元搜索引擎结果的整合41-44
- 4.2.1 检测无效链接41
- 4.2.2 成员搜索引擎权值设置41-42
- 4.2.3 根据位置信息为文档打分42
- 4.2.4 内容相关性计算42-43
- 4.2.5 冗余结果消重43
- 4.2.6 检索结果的相关性43-44
- 4.3 层次化显示44-50
- 4.3.1 聚类算法简述45-47
- 4.3.2 层次聚类算法47-50
- 4.4 本章小结50-51
- 第5章 实验与总结51-58
- 5.1 实验51-56
- 5.2 总结与展望56-58
- 5.2.1 总结56-57
- 5.2.2 展望57-58
- 参考文献58-61
- 致谢61
【相似文献】
中国期刊全文数据库 前10条
1 张卫丰;徐宝文;周晓宇;李东;许蕾;;元搜索引擎研究[J];计算机科学;2001年08期
2 张俭恭,陈定权,吴振新;关于搜索引擎与元搜索引擎的讨论[J];现代图书情报技术;2002年02期
3 张健奕;搜索引擎的新发展——元搜索引擎[J];河南图书馆学刊;2002年02期
4 刘丽,须文波;一种新型的互联网智能元搜索引擎[J];江南大学学报;2002年01期
5 朱茂盛,王斌,程学旗;元搜索引擎及其实现[J];计算机工程;2002年11期
6 刘丽,孙燕唐;智能型元搜索引擎的设计与实现[J];计算机工程;2003年06期
7 谢树龙,张杰,刘洪,仪熊晓;元搜索引擎技术分析[J];天津通信技术;2004年02期
8 何晓聪;元搜索引擎的理论与实践[J];现代情报;2004年08期
9 曾伟忠,徐昕;搜索引擎及元搜索引擎工作原理及存在的不足[J];图书馆学刊;2004年05期
10 屈长青,李艳芳;元搜索引擎的关键技术[J];现代计算机(专业版);2004年05期
中国重要会议论文全文数据库 前9条
1 周小平;梁一平;邓左祥;;元搜索引擎研究[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年
2 阳小华;刘振宇;谭敏生;刘杰;左贵启;;元搜索引擎查询结果的合成方法[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
3 孟奇奎;;一种基于数据库和用户反馈信息的元搜索引擎数据库选择算法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 诸葛建伟;袁春阳;;基于元搜索引擎实现被篡改网站发现与攻击者调查剖析[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
5 陈伟雄;马少平;步建华;;基于元搜索引擎的多关键词检索技术[A];广东省电机工程学会2003-2004年度优秀论文集[C];2005年
6 丁山山;陈世平;;智能Agent技术在个性化WEB信息代理中的应用研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
7 余晋;邓志鸿;田敬;唐世渭;;PinkySearch:基于聚类的元搜索引擎[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
8 吴冷冬;童云海;唐世渭;;面向在线音乐视频的元搜索引擎VMS[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
9 吴远红;徐妙君;范银琛;;元搜索引擎中基于OWA算子的查询结果合成研究[A];2007年全国开放式分布与并行计算机学术会议论文集(上册)[C];2007年
中国重要报纸全文数据库 前1条
1 喻芸;管理和科研:如何利用网络资源[N];学习时报;2007年
中国博士学位论文全文数据库 前3条
1 李红梅;智能元搜索引擎关键技术研究[D];西安电子科技大学;2009年
2 李强;基于本体论的个性化和社会化元搜索引擎的研究[D];浙江大学;2006年
3 刘炜;智能元搜索引擎中个性化模式库的研究[D];太原理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
2 王春艳;元搜索引擎的研究与实现[D];吉林大学;2011年
3 郭琰;元搜索引擎的关键技术研究及系统实现[D];南京理工大学;2002年
4 李炎茗;元搜索引擎的现状研究与改进设计[D];华中师范大学;2002年
5 洪颖;面向化工领域的智能元搜索引擎系统的研究与设计[D];北京化工大学;2004年
6 蔡春勇;元搜索引擎的智能化及其设计与实验[D];福州大学;2006年
7 王小朋;基于代理的元搜索引擎的研究[D];辽宁工程技术大学;2005年
8 魏振达;基于服务的元搜索引擎研究[D];南华大学;2006年
9 李信利;基于信息类别的元搜索引擎研究[D];山东大学;2006年
10 谢江标;最优搜索理论在元搜索引擎中的应用研究[D];电子科技大学;2007年
本文关键词:基于用户检索意图的元搜索引擎研究,,由笔耕文化传播整理发布。
本文编号:397724
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/397724.html