改进后缀树的中文检索结果聚类系统
本文选题:检索结果聚类 + 后缀树 ; 参考:《北京林业大学》2013年硕士论文
【摘要】:随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,使得用户在查找资料时不得不从搜索引擎返回的结果列表中仔细查找,如果用户输入的查询词带有歧义,很可能要查看很多页后才能找到满意的答案,这就给用户的使用带来了不便。比如搜索“美洲虎”时,用户可能是想查找一种武器、或者是汽车,更或者是一种动物,然而在返回的结果列表中这几类信息相互参杂着呈现给用户,如果用户需要查找某一类信息的详细情况,就需要翻很多页才能找到。 基于此,本文在传统搜索引擎的基础上设计了检索结果聚类系统。系统流程主要包括三步:首先,利用HTML分析器获取搜索引擎返回的结果项标题和摘要,用分词工具对获取到的文本进行分词、标注词性并且记录词语的位置和词频,去除停用词,剩下的词语构成每一个结果项的关键词集;然后,用各结果项的关键词集统一构建一颗后缀树,以词语为单位插入后缀树各节点,通过位置、词频、词性和词长几项约束条件计算各节点词语得分;最后,合并基类取得分高的节点词作标签。实验结果显示本方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。
[Abstract]:With the development of science and technology, the connection between people and the network has become very close. The communication and sharing of the network bring great convenience to people's life. With the rapid growth of network information, users have to search through the results list returned by the search engine. If the query words entered by the user are ambiguous, they will probably have to look at many pages before they can find a satisfactory answer. This brings inconvenience to the use of users. For example, when searching for Jaguars, the user may want to find a weapon, or a car, or an animal, but in the returned results list, these types of information are mixed and presented to the user. If a user needs to look for details of a particular type of information, it takes a lot of pages to find it. Based on this, this paper designs the retrieval result clustering system based on the traditional search engine. The system flow mainly includes three steps: firstly, the HTML analyzer is used to obtain the title and summary of the result item returned by the search engine, and the word segmentation tool is used to segment the obtained text, annotate the part of speech and record the position and frequency of the word. After removing the stop word, the remaining words constitute the keyword set of each result item; then, a suffix tree is constructed by using the keyword set of each result item, and each node of the suffix tree is inserted in the unit of words. The score of each nodal word is calculated under the constraint conditions of word length and part of speech. Finally, the node word label with high score is obtained by combining the base class. The experimental results show that the proposed method is of high purity, accurate and discriminative labels, and is convenient for users to use.
【学位授予单位】:北京林业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 韩芸;搜索引擎雅虎与Alta Vista的比较[J];情报探索;2000年04期
2 王慕东;互联网上主要的中文检索工具[J];中国信息导报;2000年05期
3 戴建中;GnetFtp搜索引擎的算法设计与实现[J];汕头大学学报(自然科学版);2005年03期
4 张兴华,王仕雪;几种英文搜索引擎的性能及检索功能[J];现代情报;2005年05期
5 时贵英;吕洪涛;;可扩展数据库搜索引擎的研究和实现[J];长江大学学报(自然科学版)理工卷;2010年01期
6 张志锋;刘育熙;邓璐娟;梁树军;;基于压缩后缀数组的搜索引擎技术[J];电脑开发与应用;2007年03期
7 刘刚;北京图书馆大型计算机中文检索系统向读者开放试运行[J];国家图书馆学刊;1996年01期
8 张继刚;搜索引擎使用技巧[J];网络与信息;1999年09期
9 ;关键词搜索[J];每周电脑报;2000年38期
10 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
相关会议论文 前10条
1 陆汝占;;中文检索与汉语语义概念图表示[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 余慧佳;刘奕群;张敏;茹立云;马少平;;基于大规模日志分析的网络搜索引擎用户行为研究[A];第三届学生计算语言学研讨会论文集[C];2006年
3 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
4 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
5 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
9 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
10 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
相关重要报纸文章 前10条
1 李一鑫;搜索排名的红与黑[N];财经时报;2007年
2 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
3 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
4 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,,还是门户[N];中国计算机报;2005年
5 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
6 朱伟;雅虎中国“变脸”搜索引擎[N];文汇报;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 商报记者 吴辰光;搜索引擎市场趋向细分化[N];北京现代商报;2006年
9 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
10 元元;从单向搜索转向多维和垂直搜索[N];证券日报;2006年
相关博士学位论文 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
5 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
6 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
7 王昤璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
相关硕士学位论文 前10条
1 荣元媛;改进后缀树的中文检索结果聚类系统[D];北京林业大学;2013年
2 张朝斌;企业级搜索引擎的优化设计与实现[D];华南理工大学;2010年
3 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
4 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
5 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
6 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
7 袁晓峰;Web文档聚类在搜索引擎中的应用研究[D];江苏大学;2009年
8 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
9 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
10 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
本文编号:2041009
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2041009.html