面向金融领域的分布式垂直搜索引擎研究与实现
发布时间:2020-09-17 12:18
随着近年来电子商务、社会化网络、移动互联网以及智能化技术的发展,互联网上的信息呈现出爆炸性增长的态势,通用搜索引擎的检索结果出现出多、杂、乱的现象。并且用户对搜索引擎的要求也不再局限于仅为其提供相关的网页,而是期望搜索引擎能够给出某领域的深层次知识。然而,世界几大通用搜索引擎巨头无法涵盖如此众多领域内的搜索市场。因此,在未来中小型机构提供的领域化、专业化的垂直搜索服务必将有很大的应用价值。 中小型金融机构受其经济能力和搜索方面技术实力的限制,其信息检索服务还停留在提供存储在数据库中的结构化信息的落后阶段。因此,如何利用现有的技术框架提升中小型机构提供高质量垂直搜索服务的能力是亟待解决的问题。 本文提出了使用Hadoop开源分布式存储计算平台基于Nutch插件机制构建中小型机构垂直搜索引擎的技术方案。本文详细介绍了Hadoop平台相关技术的原理和优势,对Nutch插件机制进行了着重研究,分析了目前常见的领域聚焦算法和常见的中文分词组件的特点,介绍了常见的网页特征词提取算法。设计并实现了基于Nutch插件机制的金融领域聚焦爬虫和离线的关键词相关词语发现模块。利用3台PC机搭建了一个完整的能提供金融领域信息检索服务的微型搜索引擎。实验结果证明,该方案具备一定的可行性和实际的应用价值。
【学位单位】:山东财经大学
【学位级别】:硕士
【学位年份】:2014
【中图分类】:TP391.3
本文编号:2820709
【学位单位】:山东财经大学
【学位级别】:硕士
【学位年份】:2014
【中图分类】:TP391.3
【参考文献】
相关期刊论文 前10条
1 陈智;;基于搜索引擎的用户网络信息资源组织[J];合肥师范学院学报;2008年03期
2 周宏宇;张政;;中文分词技术综述[J];安阳师范学院学报;2010年02期
3 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
4 陈丽君;;聚焦爬虫常见算法分析[J];电脑知识与技术;2008年S1期
5 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
6 杨志伟;王鑫;;基于本体的气象领域聚焦爬虫[J];中国管理信息化;2011年04期
7 夏天;;Nutch的插件机制分析[J];广西师范大学学报(自然科学版);2010年01期
8 张丹;;中文分词算法综述[J];黑龙江科技信息;2012年08期
9 李效东,顾毓清;基于DOM的Web信息提取[J];计算机学报;2002年05期
10 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期
相关硕士学位论文 前1条
1 范晨熙;基于Hadoop的搜索引擎的研究与应用[D];浙江理工大学;2013年
本文编号:2820709
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2820709.html