当前位置:主页 > 社科论文 > 图书档案论文 >

Hadoop平台下主题搜索引擎的设计与实现

发布时间:2020-10-17 16:20
   随着互联网用户量的激增,使得网络中数据量飞速累积且数据格式也随之增多,搜索引擎成为了处于大数据背景下的网络用户获取所需信息的主要手段之一。但对于拥有不同专业背景的用户,网络信息的多元化使得通用搜索引擎并不能满足他们的信息需求,这就使得当前搜索引擎的发展需要以用户为中心,而这一信息需求背景下就出现了主题搜索引擎。数据量的增加同时使得搜索引擎需要处理的数据流同步增加,分布式计算技术能够更好的应对海量数据的存储和高并发计算。在本文中笔者对Hadoop平台下主题搜索引擎相关技术进行了研究。查准率是评价一个搜索引擎性能的主要指标,如何提升查准率是本文研究的重点;系统检索响应时间与人机交互性是搜索引擎影响用户体验的两个指标;爬虫爬取速度是搜索引擎后台性能的直接反映。为了改进以上指标,本文的主要研究工作如下:一、对分布式计算和主题搜索引擎相关技术与理论进行分析,其中包括了分布式编程思想、网络爬虫的主题过滤、各个中文分词算法的分析、经典排序算法和常用的聚类算法。二、对经典PageRank算法所存在的问题,从主题链接、内外站链接数等方面对其进行优化,使其更具主题性,能够更好的表示某个网页的主题相关性。对改进后的PageRank算法进行MapReduce改造,使其符合分布式计算的要求。在原有检索结果排序算法的基础上,综合TF-IDF算法、OPIC算法和优化处理后的PageRank算法对排序结果进行整体优化。三、利用后缀树聚类算法对用户的检索结果进行实时聚类,笔者将实时聚类与主题搜索引擎首次结合到一起,改进了人机交互的接口,通过可视化的类簇,使得用户能够更为直观的对检索结果有总体的认识,同时也方便了用户对指定信息的浏览,提升用户体验。四、构建了一个完整的主题搜索引擎,其中包括主题爬虫、中文分词模块、索引模块和检索模块,在此基础上验证了分布式系统性能的灵活拓展性,提升了主题爬虫爬取速度和降低系统检索响应时间,同时通过优化后的排序算法提升了该系统的查准率,最后通过后缀树算法实现了实时聚类和聚类可视化。文章的最后,对此次研究做了总结,分析了当前研究成果和不足,并对下一步研究方向给出了研究思路。
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3;G254.334
【部分图文】:

中文分词,添加效果,模块


中文分词模块同样是基于 Nutch 的插件机制,利用 IKAnalyzer 中文词器,utch-1.7 的中文分词功能,其具体实现如下步骤:ξ1ο 在二次开发完成后的 Nutch 文件夹下,找到其与 solr 连接的默认配schema-solr4.xml”,将该文件复制到 Solr 的安装目录下,最后将其重schema.xml” ξ2ο 在 schema.xml 文件的<types></types>区域中添加相应字段来nalyzer 分词器,然后根据用户的主题来编辑该系统中 IKAnalyzer 的用户个中英文停用词典 其中需要添加的类是”org.wltea.analyzer.lucene.IKAnalyzer的模块是”index”和”query”模块,对索引模块将不会限制最长分词词项,对则会限制最长词项,并为该分词器的配置信息命名为”ik_analyer”,方便后续ξ3ο 将 schema.xml 中<fields></fields>区域中的 content title text anchld>字段作出相应的修改,因为需要在创建索引和检索过程中对 content title hor 字段进行分词,其具体操作为将它们的分词器类型都设置为上文ik_analyer”,同时对这四个字段的内容开启索引和存储控制

运行环境,版本


西安电子科技大学硕士学位论文表 4.2 软件环境系统 Cent版本 jdk-1t 版本 apache-top 版本 Hadoo 版本 apache- 版本 apache-s2 版本 carrot2-e 版本 VMware 9.拟机环境下运行的,共搭建三台虚拟均为 1GB 运行内存和 20GB 硬盘 具体adoop 的主节点ξMasterο同时兼做(Slav

线程,速率,检索结果,网页


西安电子科技大学硕士学位论文用户提供一个检索结果的实时聚类图,更为方便用户对检索结果进行筛选 6 结果与分析在进行正式实验之前,需要找到系统的最优线程数,对分布式主题爬虫设置程数,将每一层爬取的前 N 个网页数ξtopNο设置为 1000 图 4.7 展示了速率ξ爬取网页数/爬取时间ο与线程数量之间的关系
【相似文献】

相关期刊论文 前10条

1 吕峰;李丽娇;高云英;马开阳;;基于Hadoop在中医药数据挖掘中的应用[J];电子设计工程;2016年22期

2 胡锐;胡伏原;陈丽春;;基于Hadoop的分布式视频转码系统的研究与设计[J];苏州科技学院学报(自然科学版);2016年04期

3 李中显;蔡宗慧;;基于Hadoop云平台的联合收割机远程监控系统研究[J];农机化研究;2017年12期

4 卞涛;罗泽;马永征;;基于Hadoop的分布式视频处理[J];科研信息化技术与应用;2016年04期

5 刘洋;李筱楠;刘会杰;;基于Hadoop的煤炭企业数据共享系统设计[J];煤炭技术;2017年06期

6 叶春蕾;;基于Hadoop的高校图书馆大数据关键技术研究[J];数字图书馆论坛;2017年05期

7 王倩;谭永杰;秦杰;柴争义;叶海琴;;基于Hadoop分布式平台的海量图像检索[J];南京理工大学学报;2017年04期

8 黄鑫;景亮;;基于Hadoop的推荐算法实现[J];自动化技术与应用;2017年10期

9 赵广智;;Hadoop与关系型数据库在电信行业中的应用研究[J];广东通信技术;2017年09期

10 裴新超;尹四清;;基于Hadoop平台的图像检索研究[J];山西电子技术;2016年01期


相关博士学位论文 前10条

1 李晔锋;基于Hadoop的行列混合存储模型研究[D];东华大学;2015年

2 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年

3 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年

4 李学博;基于Hadoop的中医药Web信息资源评价体系研究[D];山东中医药大学;2016年

5 范建永;基于Hadoop的云GIS若干关键技术研究[D];解放军信息工程大学;2013年

6 乔媛媛;基于Hadoop的网络流量分析系统的研究与应用[D];北京邮电大学;2014年

7 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年

8 史恒亮;云计算任务调度研究[D];南京理工大学;2012年

9 吴晓璇;基于分形维数的选择性聚类融合算法研究[D];合肥工业大学;2015年

10 陈洋;面向植物电生理多源数据的在线分析方法研究[D];中国农业大学;2016年


相关硕士学位论文 前10条

1 余华咏;基于Hadoop的酒店推荐系统[D];南昌大学;2019年

2 孔海飞;基于Hadoop平台的多维度学生学业预警系统的研究[D];安徽工业大学;2019年

3 薛好运;基于Hadoop和深度学习的远程心肌缺血诊断系统的设计及实现[D];华南理工大学;2019年

4 韦美峰;Hadoop平台下主题搜索引擎的设计与实现[D];西安电子科技大学;2018年

5 徐烨;基于hadoop的电梯大数据安全性挖掘平台的研究[D];上海应用技术大学;2019年

6 马明浩;大数据时代用户游戏内付费预测研究[D];东华大学;2019年

7 张永普;基于改进Hadoop的大规模图处理系统的设计与实现[D];辽宁大学;2019年

8 张舜;基于Hadoop的高校数字资源分布式处理系统设计与实现[D];广西大学;2019年

9 陈旭;基于Hadoop的电影推荐系统的研究与实现[D];辽宁大学;2019年

10 马振;Hadoop集群中小文件的存取优化研究[D];新疆大学;2019年



本文编号:2845031

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2845031.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户34788***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com