当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向汽车行业的垂直搜索引擎研究与实现

发布时间:2019-11-07 14:24
【摘要】:随着互联网用户的逐年增加,搜索引擎作为用户使用互联网的主要工具使用率呈逐年上涨趋势。本文所研究的搜索引擎是为汽车类信息垂直搜索引擎,旨在用户快速查找相关信息。 本文首先系统的介绍了搜索引擎的概念、发展历史、和搜索引擎的分类。然后,对汽车搜索引擎系统进行需求分析,对系统进行总体设计,并对系统的各个功能模块进行详细的设计和实现,最后汽车搜索引擎系统进行了测试。 本汽车搜索引擎是基于Web面向国内知名汽车网站的搜索引擎。系统的前端以MVC模式来实现,主要分为四个子模块。Spider模块实现的功能为将特定网站上的大量网页抓取到系统中,该模块使用JAVA言语个性化定制的spider来完成对网页的抓取。解析模块实现的功能为解析网页,提取其中的有用内容,该模块使用HTMLParser的API实现了对网页内容的解析。索引模块对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中;该模块通过Lucene的API来实现对网页内容的建索。查询模块实现的主要功能是用户通过此模块完成与系统的交互,当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集,通过Lucene的API来实现检索。
【图文】:

系统结构图,搜索引擎,相互依赖,查询模块


2-1系统结构图为了更清晰地说明其工作原理,如图2-1所示,是一个常见的搜索引擎系统架构图[iDl,系统基本结构由爬虫模块、预处理模块、查询模块组成,系统的各部分都会相互交错、相互依赖。1.网络_蛛技术

顺序图,顺序图,网页


图2-3 spider抓取顺序图由于不可能抓取所有的网页,,有些网络卿蛛对一些不太重要的网站,设置了访问的数。例如,在图2. 2中,A为起始网页,属于0层,B、C、D、E、F属于第I层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页丨是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索
【学位授予单位】:复旦大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3

【共引文献】

相关期刊论文 前10条

1 孙素芬;罗长寿;张峻峰;于峰;张树亮;;农业信息资源整合系统研究与应用[J];安徽农业科学;2007年22期

2 汪斌;张云伟;刘健;陈晶;;一种面向农业信息主题网络爬虫的设计[J];安徽农业科学;2009年20期

3 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期

4 任斌;毛应爽;;基于本体的主动学习主题爬行的研究与实现[J];长春工程学院学报(自然科学版);2011年01期

5 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

6 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期

7 吴聪聪;赵建立;;基于本体的主题爬虫的研究[J];电脑知识与技术;2011年03期

8 王迁;王丽娜;;对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J];电子知识产权;2007年08期

9 胡宏涛;常佳;;基于网络的信息获取技术浅析[J];福建电脑;2006年04期

10 张军洲;连云凯;;基于旅游博客和论坛提高旅游产品质量的模型研究[J];旅游论坛;2012年02期

相关会议论文 前4条

1 王栋;陈勇;徐建良;;基于预测的BitTorrent种子评估方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年

2 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

3 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

4 彭鑫;秦秋莉;;基于相关度分析的主题聚焦爬虫研究[A];第六届ABB杯全国自动化系统工程师论文大赛论文集[C];2013年

相关博士学位论文 前10条

1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年

2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年

3 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

4 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年

5 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

6 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年

7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年

8 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年

9 王永刚;以数据为中心的在线社会网络若干安全问题研究[D];北京大学;2013年

10 王明军;基于Web的空间数据爬取与度量研究[D];武汉大学;2013年

相关硕士学位论文 前10条

1 吕芳芳;基于查询扩展的垂直搜索研究[D];山东科技大学;2010年

2 翁岩青;网页抓取策略研究[D];哈尔滨工程大学;2010年

3 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年

4 史炜;个性化搜索引擎的研究与设计[D];电子科技大学;2010年

5 丁宝琼;网络文本信息采集分析关键技术研究与实现[D];解放军信息工程大学;2009年

6 沙有闯;基于Web文本挖掘的网络口碑监测系统研究[D];安徽大学;2010年

7 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

8 张朝威;面向企业竞争情报的主题搜索研究与实现[D];西安电子科技大学;2010年

9 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年

10 姜博;基于聚焦爬虫的web信息采集技术研究[D];北方工业大学;2011年



本文编号:2557322

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2557322.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ef240***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com