当前位置:主页 > 科技论文 > 搜索引擎论文 >

专用Web信息收集系统的设计和实现

发布时间:2018-06-28 16:40

  本文选题:Heritrix + HTMLParser ; 参考:《煤炭技术》2011年08期


【摘要】:Heritrix是由Java开发的开源Web网络爬虫,HTMLParser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和HTMLParser构建Web信息收集系统的设计和实现。
[Abstract]:Heritrix is an open source Web crawler developed by Java. HTMLParser can efficiently parse the contents of the web pages after crawling and reintegrate the information, which solves the problem of the data source needed by the professional search engine. This paper discusses the design and implementation of Web information collection system based on Heritrix and HTML Parser.
【作者单位】: 新疆艺术学院基础部;
【分类号】:TP393.09

【参考文献】

相关期刊论文 前3条

1 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

2 朱雪莲;;基于Lucene专业搜索引擎的研究应用[J];现代计算机(专业版);2010年09期

3 珠杰;罗潘;;基于HTML Parser的网页信息提取技术研究[J];西藏大学学报(自然科学版);2010年01期

【共引文献】

相关期刊论文 前10条

1 康海燕;任俊玲;陈昕;王鹤沩;;基于自然语言处理的多级网页过滤器研究[J];信息安全与技术;2011年10期

2 陈悦;陈运;杨义先;胡迪;;基于遗传算法的聚焦爬虫搜索策略设计与研究[J];成都信息工程学院学报;2011年05期

3 付涛;;基于背景的Web广泛主题发现方法[J];电脑学习;2010年02期

4 王冬;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年15期

5 王冬;张运波;黄应红;;中文信息检索关键技术分析[J];电脑知识与技术(学术交流);2007年17期

6 张丽敏;;垂直搜索引擎的主题爬虫策略[J];电脑知识与技术;2010年15期

7 王兵;许少华;张兴旺;;基于改进PageRank算法的管道专业搜索引擎系统设计与实现[J];大庆石油学院学报;2007年01期

8 谢吉刚;;中小型网站的搜索引擎优化实施策略[J];高等函授学报(自然科学版);2009年01期

9 孙宏;李戴维;董旭阳;季泽旭;;搜索引擎技术与发展综述[J];计算机光盘软件与应用;2012年14期

10 张涛;;针对企业网站的搜索引擎优化策略[J];湖北工业大学学报;2009年05期

相关硕士学位论文 前10条

1 李永春;主题搜索引擎的研究与实现[D];哈尔滨理工大学;2010年

2 陈可钦;基于垂直搜索引擎的主题爬虫算法的研究[D];中南林业科技大学;2009年

3 杨晓丹;基于Lucene的主题搜索引擎模板的设计与实现[D];浙江工商大学;2011年

4 王兆宇;个性化站内搜索引擎的设计与应用[D];东华大学;2011年

5 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年

6 王小森;基于Solr的搜索引擎的设计与实现[D];北京邮电大学;2011年

7 郭姣;基于WebGIS的五金产业信息搜索系统的设计与实现[D];山西财经大学;2011年

8 赵思佳;基于规则引擎的个性化网页爬虫研究[D];中南大学;2010年

9 吴宗坤;基于Fuse的资源搜索文件系统设计与实现[D];华南理工大学;2011年

10 李军青;基于互联网的个性化健康信息定制系统构建[D];复旦大学;2010年

【二级参考文献】

相关期刊论文 前4条

1 欧阳柳波,李学勇,李国徽,王鑫;专业搜索引擎搜索策略综述[J];计算机工程;2004年13期

2 珠杰;欧珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];计算机工程;2008年24期

3 刘畅;;综合搜索引擎与垂直搜索引擎的比较研究[J];情报科学;2007年01期

4 李广丽;刘觉夫;;垂直搜索引擎系统的研究与实现[J];情报杂志;2009年10期

相关硕士学位论文 前2条

1 吕韩飞;主题(topical)crawler及其应用——主题搜索引擎[D];浙江大学;2005年

2 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年

【相似文献】

相关期刊论文 前10条

1 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期

2 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期

3 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期

4 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期

5 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期

6 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期

7 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期

8 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期

9 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期

10 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期

相关会议论文 前10条

1 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

2 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年

3 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

4 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

5 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

6 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年

8 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

9 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年

10 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年

相关重要报纸文章 前10条

1 赵晓涛;Web安全 服务为王[N];网络世界;2008年

2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年

3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年

4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年

5 闫冰;“推”出Web交付新天地[N];网络世界;2009年

6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年

7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年

8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年

9 ;Web2.0工具使用须谨慎[N];网络世界;2009年

10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年

相关博士学位论文 前10条

1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年

2 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年

3 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年

4 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年

5 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年

6 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年

7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年

8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年

9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年

10 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年

相关硕士学位论文 前10条

1 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年

2 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年

3 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年

4 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年

5 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年

6 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年

7 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年

8 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年

9 任强;基于谓词抽象与精化技术的Web服务验证研究[D];苏州大学;2011年

10 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年



本文编号:2078659

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2078659.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9d6a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com