智能搜索引擎关键技术研究及应用
本文选题:搜索引擎 + Nutch ; 参考:《浙江理工大学》2017年硕士论文
【摘要】:人类社会的信息化建设已经深入到各个领域,包括建设带宽和速率更高的网络基础设施、研发基于内存数据库群集的新型数据仓库、大规模分布式云计算的逐步应用、设计和开发更注重用户体验的各类应用界面等,以上都在不同层面分别革新了信息的传输、存储、计算、VIEW等领域,以应对大数据时代的来临。但针对互联网应用产生的异构并呈爆炸式增长的海量数据,人们面临着如何更准确高效地获取更有价值信息的问题,而这也逐渐成为了信息高速公路最后一公里的瓶颈。因此,越来越多的互联网公司和科研机构开始以新高度采用新技术来研发或优化其所在领域的搜索引擎,学术界也从更核心的理论及算法角度投入更多精力进行研究,以期望能在搜索引擎革新领域有更大的突破。因此,本文针对智能搜索引擎,在分析核心原理和经典算法的基础上,主要有以下几个方面的成果:(1)分析了搜索引擎国内外的研究现状及发展趋势、搜索引擎的相关理论、系统结构和性能评价标准。(2)针对中文搜索引擎,本文重点分析了中文分词算法原理、向量空间模型(VSM)原理和基于VSM的相似度算法的特点,从向量空间模型的构建出发,提出了一种基于VSM特征词相似度改进算法,并验证了该改进算法的优化性能。(3)根据“正向迭代最细粒度切分”分词的特点,对Nutch搜索引擎框架的分词器进行了优化,并以此为基础设计搭建了一套完整的搜索引擎系统。实验结果表明,本文实现的基于Nutch的搜索引擎系统,其检索准确度有明显提高,具有较好的应用价值。
[Abstract]:The information construction of human society has been deeply studied in various fields , including the construction of network infrastructure with higher bandwidth and rate , the development of a new data warehouse based on memory database cluster , the step - by - step application of large - scale distributed cloud computing , the design and development of search engine more focused on user experience .
【学位授予单位】:浙江理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 李宜兵;郭玉堂;潘洁珠;陈军;;基于VSM模型和数据库技术的文本相似度检查软件研究与实现[J];网络安全技术与应用;2014年08期
2 朱鹏;;基于Lucene的倒排索引性能的研究[J];无线互联科技;2014年08期
3 虞飞华;;不同搜索引擎在中国大学网络影响力评价中的比较研究[J];情报科学;2013年05期
4 黄承慧;印鉴;侯f ;;一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J];计算机学报;2011年05期
5 王文钧;李巍;;垂直搜索引擎的现状与发展探究[J];情报科学;2010年03期
6 刘迪慧;何友全;;一种基于相似度值的向量空间投影HITS算法[J];现代计算机(专业版);2009年10期
7 游庆祥;尤瑞玲;;一种基于向量空间模型的构件库设计[J];电脑知识与技术;2009年03期
8 陈莉;吴洁;马静;薛浩;;基于本体的领域知识搜索研究[J];计算机工程;2008年24期
9 罗桂琼;费洪晓;戴弋;;基于反序词典的中文分词技术研究[J];计算机技术与发展;2008年01期
10 魏晓宁;;基于隐马尔科夫模型的中文分词研究[J];电脑知识与技术(学术交流);2007年21期
相关博士学位论文 前1条
1 王晔;垂直搜索引擎若干问题研究[D];复旦大学;2011年
相关硕士学位论文 前10条
1 周祺;基于统计与词典相结合的中文分词的研究与实现[D];哈尔滨工业大学;2015年
2 杨淦;基于条件随机场模型的中文分词系统研究与实现[D];重庆大学;2015年
3 白晓丹;搜索引擎网页相关性及检索效率评价体系研究[D];北京交通大学;2015年
4 纪晓阳;基于Nutch搜索引擎系统数据处理的中文分词技术的研究[D];成都理工大学;2014年
5 张晓伟;聚类算法及在搜索引擎系统中的应用[D];哈尔滨理工大学;2014年
6 玉兆辉;基于MapReduce的分布式聚类搜索引擎设计与实现[D];电子科技大学;2014年
7 牛秀萍;基于隐马尔科夫模型词性标注的研究[D];太原理工大学;2013年
8 徐钟;隐马尔科夫模型在中文实体分类中的应用及研究[D];南昌大学;2012年
9 刘昆;应用于文本搜索引擎的聚类算法研究[D];上海交通大学;2012年
10 邵蕾;基于Lucene的教学资源垂直搜索引擎的研究与实现[D];北京邮电大学;2012年
,本文编号:1935678
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1935678.html