面向新闻领域的小型垂直搜索引擎
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:
方便对功能进行拓展。Heritrix最初是被设计用来网络信息保存的网络爬虫。逡逑它由国外知名科技组织互联网档案计划(Internet邋Archive)所研发[16]。它由Java语言编写逡逑并且使用完全免费。如图2-1所示,Heritrix的主控制界面可以通过Web浏览器访问,逡逑并且有一个命令行工具可以用来启动抓取工作。逡逑■邋I邋?f7fl逦Statas邋as邋ofH月.27,2017邋06:15:00邋GMT邋Alerts:邋KOntxv)逡逑JUJli邋U邋iA邋Lik邋CRAWLING邋JOBS逦Rl^MKG邋Job:邋sohu逡逑Admtn邋Console邋0邋jobs邋pendiag,邋1邋completed逦10邋URIs邋in邋23邋s邋(0.4/sec)逡逑了’Jobs邋Profiles邋Logs邋Reports邋Setup邋Help逦逡逑Crawler邋Status:邋CRAmiNG邋JOBS邋|邋Bold逡逑Jobs逦Memory逡逑Runarng:邋sohu逦21567邋KB邋used逡逑0邋peniSng
虫必须只爬取新闻相关的网页。Heritrix爬取过程中对网页链接的遍历方式是宽度遍历逡逑[24],如图2-4所示,即使设定的爬虫入口网页是特定的新闻网页也很容易在遍历过程逡逑中跳转到其他类型的网页。随着遍历程度的加深,爬取主题的偏移也会逐渐加重。结逡逑合以上两点,对Heritrix进行爬取规则的定制,规定Heritrix只能对特定的网页链接进逡逑行解析爬取是很有必要的。逡逑16逡逑
【参考文献】
相关期刊论文 前10条
1 肖江;季节;;基于Heritrix的主题爬虫在互联网舆情系统中应用[J];电子设计工程;2015年06期
2 杜选;;基于加权补集的朴素贝叶斯文本分类算法研究[J];计算机应用与软件;2014年09期
3 王晓琴;李书琴;景旭;王蒙;;基于Nutch的农业垂直搜索引擎研究[J];计算机工程与设计;2014年06期
4 张皓;周学广;;基于Heritrix的增量式网络爬虫研究[J];软件导刊;2013年11期
5 覃世安;李法运;;文本分类中TF-IDF方法的改进研究[J];现代图书情报技术;2013年10期
6 刘海峰;苏展;刘守生;;一种基于词频信息的改进CHI文本特征选择[J];计算机工程与应用;2013年22期
7 李晶辉;张小刚;陈华;胡义函;;一种改进隐朴素贝叶斯算法的研究[J];小型微型计算机系统;2013年07期
8 刘高军;夏景隆;;基于Heritrix的网络爬虫研究与应用[J];软件导刊;2013年05期
9 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期
10 连凯;;基于SVM的汉语评论情感分类方法研究[J];现代计算机(专业版);2012年12期
相关博士学位论文 前1条
1 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
相关硕士学位论文 前10条
1 秦添轶;多项文本挖掘关键技术的研究和实现[D];哈尔滨工业大学;2017年
2 李玉杰;半朴素贝叶斯分类器研究[D];中央民族大学;2017年
3 王峰;基于新浪微博舆情采集与倾向性分析系统[D];南京信息工程大学;2016年
4 顾盛;基于Lucene和Heritrix的小型主题搜索引擎的研究及实现[D];西安电子科技大学;2015年
5 张建伟;基于WEB文本挖掘的电子商务网站个性化推荐研究[D];安徽理工大学;2014年
6 李春生;面向海量数据的索引技术研究[D];华东师范大学;2013年
7 张畅畅;基于Heritrix和Lucene垂直搜索引擎的应用研究[D];昆明理工大学;2013年
8 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年
9 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
10 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年
本文编号:2724024
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2724024.html