Hadoop平台下主题搜索引擎的设计与实现
【学位单位】:西安电子科技大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3;G254.334
【部分图文】:
中文分词模块同样是基于 Nutch 的插件机制,利用 IKAnalyzer 中文词器,utch-1.7 的中文分词功能,其具体实现如下步骤:ξ1ο 在二次开发完成后的 Nutch 文件夹下,找到其与 solr 连接的默认配schema-solr4.xml”,将该文件复制到 Solr 的安装目录下,最后将其重schema.xml” ξ2ο 在 schema.xml 文件的<types></types>区域中添加相应字段来nalyzer 分词器,然后根据用户的主题来编辑该系统中 IKAnalyzer 的用户个中英文停用词典 其中需要添加的类是”org.wltea.analyzer.lucene.IKAnalyzer的模块是”index”和”query”模块,对索引模块将不会限制最长分词词项,对则会限制最长词项,并为该分词器的配置信息命名为”ik_analyer”,方便后续ξ3ο 将 schema.xml 中<fields></fields>区域中的 content title text anchld>字段作出相应的修改,因为需要在创建索引和检索过程中对 content title hor 字段进行分词,其具体操作为将它们的分词器类型都设置为上文ik_analyer”,同时对这四个字段的内容开启索引和存储控制
西安电子科技大学硕士学位论文表 4.2 软件环境系统 Cent版本 jdk-1t 版本 apache-top 版本 Hadoo 版本 apache- 版本 apache-s2 版本 carrot2-e 版本 VMware 9.拟机环境下运行的,共搭建三台虚拟均为 1GB 运行内存和 20GB 硬盘 具体adoop 的主节点ξMasterο同时兼做(Slav
西安电子科技大学硕士学位论文用户提供一个检索结果的实时聚类图,更为方便用户对检索结果进行筛选 6 结果与分析在进行正式实验之前,需要找到系统的最优线程数,对分布式主题爬虫设置程数,将每一层爬取的前 N 个网页数ξtopNο设置为 1000 图 4.7 展示了速率ξ爬取网页数/爬取时间ο与线程数量之间的关系
【相似文献】
相关期刊论文 前10条
1 吕峰;李丽娇;高云英;马开阳;;基于Hadoop在中医药数据挖掘中的应用[J];电子设计工程;2016年22期
2 胡锐;胡伏原;陈丽春;;基于Hadoop的分布式视频转码系统的研究与设计[J];苏州科技学院学报(自然科学版);2016年04期
3 李中显;蔡宗慧;;基于Hadoop云平台的联合收割机远程监控系统研究[J];农机化研究;2017年12期
4 卞涛;罗泽;马永征;;基于Hadoop的分布式视频处理[J];科研信息化技术与应用;2016年04期
5 刘洋;李筱楠;刘会杰;;基于Hadoop的煤炭企业数据共享系统设计[J];煤炭技术;2017年06期
6 叶春蕾;;基于Hadoop的高校图书馆大数据关键技术研究[J];数字图书馆论坛;2017年05期
7 王倩;谭永杰;秦杰;柴争义;叶海琴;;基于Hadoop分布式平台的海量图像检索[J];南京理工大学学报;2017年04期
8 黄鑫;景亮;;基于Hadoop的推荐算法实现[J];自动化技术与应用;2017年10期
9 赵广智;;Hadoop与关系型数据库在电信行业中的应用研究[J];广东通信技术;2017年09期
10 裴新超;尹四清;;基于Hadoop平台的图像检索研究[J];山西电子技术;2016年01期
相关博士学位论文 前10条
1 李晔锋;基于Hadoop的行列混合存储模型研究[D];东华大学;2015年
2 林文辉;基于Hadoop的海量网络数据处理平台的关键技术研究[D];北京邮电大学;2014年
3 李韧;基于Hadoop的大规模语义Web本体数据查询与推理关键技术研究[D];重庆大学;2013年
4 李学博;基于Hadoop的中医药Web信息资源评价体系研究[D];山东中医药大学;2016年
5 范建永;基于Hadoop的云GIS若干关键技术研究[D];解放军信息工程大学;2013年
6 乔媛媛;基于Hadoop的网络流量分析系统的研究与应用[D];北京邮电大学;2014年
7 宋亚奇;云平台下电力设备监测大数据存储优化与并行处理技术研究[D];华北电力大学(北京);2016年
8 史恒亮;云计算任务调度研究[D];南京理工大学;2012年
9 吴晓璇;基于分形维数的选择性聚类融合算法研究[D];合肥工业大学;2015年
10 陈洋;面向植物电生理多源数据的在线分析方法研究[D];中国农业大学;2016年
相关硕士学位论文 前10条
1 余华咏;基于Hadoop的酒店推荐系统[D];南昌大学;2019年
2 孔海飞;基于Hadoop平台的多维度学生学业预警系统的研究[D];安徽工业大学;2019年
3 薛好运;基于Hadoop和深度学习的远程心肌缺血诊断系统的设计及实现[D];华南理工大学;2019年
4 韦美峰;Hadoop平台下主题搜索引擎的设计与实现[D];西安电子科技大学;2018年
5 徐烨;基于hadoop的电梯大数据安全性挖掘平台的研究[D];上海应用技术大学;2019年
6 马明浩;大数据时代用户游戏内付费预测研究[D];东华大学;2019年
7 张永普;基于改进Hadoop的大规模图处理系统的设计与实现[D];辽宁大学;2019年
8 张舜;基于Hadoop的高校数字资源分布式处理系统设计与实现[D];广西大学;2019年
9 陈旭;基于Hadoop的电影推荐系统的研究与实现[D];辽宁大学;2019年
10 马振;Hadoop集群中小文件的存取优化研究[D];新疆大学;2019年
本文编号:2845031
本文链接:https://www.wllwen.com/tushudanganlunwen/2845031.html