当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向新闻领域的小型垂直搜索引擎

发布时间:2020-06-21 11:50
【摘要】:垂直搜索引擎是一种面向特定领域的搜索引擎。与传统的通用搜索引擎相比垂直搜索引擎更能满足特定人群的搜索需求,对用户群作了领域细分。当用户输入检索关键词时,垂直搜索引擎会精确的返回该特定领域的相关信息。本文提出并设计了一种面向新闻领域的的小型垂直搜索引擎。为此设计了一套基于Heritrix的新闻主题网络爬虫。对爬虫的网页抓取规则以及网页迭代遍历的方式进行了主题定制,使得Heritrix可以仅爬取新闻网页从而过滤其他冗余无用的网页数据。并且针对Heritrix在相同网络域名下爬取网页时无法开启多线程的问题,对Heritrix的爬虫队列进行了改进。引入BKDRHash算法,对每一个待爬取新闻网页的URL计算并生成单独的哈希值,最后根据哈希值将URL平均分配至每个爬虫线程队列中。根据实验对比,大大地改进了爬虫的网页爬取速度。同时本文针对新闻文本类别混乱不清的问题设计了文本分类算法,它是一种基于支持向量机的不均衡文本分类算法。该算法针对不均衡文本数据集问题,运用合成少数类过采样算法(SMOTE)生成插值样本均衡数据集,并通过粒子群优化算法(PSO)迭代进化得到最佳的插值样本,对支持向量机的文本分类能力进行了优化。实验结果表明,新算法大幅优化了支持向量机分类不均衡文本数据集的能力。本文对网页排序理论进行了剖析,设计了一种基于网页主题相关度和更新频率的PageRank网页排序算法。该算法在PageRank算法的基础上兼顾了网页的主题相关度,并引入了网页更新频率因子对新网页的排序优先级进行了调整。实验表明,该算法可以有效地改进搜索引擎的查询准确率。结合上述两种算法,本文基于Lucene检索框架构建了新闻垂直搜索引擎系统。使用Lucene对新闻数据做索引处理之后,用户在搜索界面可直接进行新闻搜索查询。该搜索引擎系统在进行新闻检索之前可以提前选择新闻类别,提高了新闻检索的垂直度和细分度。
【学位授予单位】:南京信息工程大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3
【图文】:

界面图,主控制,界面,网络信息保存


方便对功能进行拓展。Heritrix最初是被设计用来网络信息保存的网络爬虫。逡逑它由国外知名科技组织互联网档案计划(Internet邋Archive)所研发[16]。它由Java语言编写逡逑并且使用完全免费。如图2-1所示,Heritrix的主控制界面可以通过Web浏览器访问,逡逑并且有一个命令行工具可以用来启动抓取工作。逡逑■邋I邋?f7fl逦Statas邋as邋ofH月.27,2017邋06:15:00邋GMT邋Alerts:邋KOntxv)逡逑JUJli邋U邋iA邋Lik邋CRAWLING邋JOBS逦Rl^MKG邋Job:邋sohu逡逑Admtn邋Console邋0邋jobs邋pendiag,邋1邋completed逦10邋URIs邋in邋23邋s邋(0.4/sec)逡逑了’Jobs邋Profiles邋Logs邋Reports邋Setup邋Help逦逡逑Crawler邋Status:邋CRAmiNG邋JOBS邋|邋Bold逡逑Jobs逦Memory逡逑Runarng:邋sohu逦21567邋KB邋used逡逑0邋peniSng

改进效果,对比实验,队列,网页


虫必须只爬取新闻相关的网页。Heritrix爬取过程中对网页链接的遍历方式是宽度遍历逡逑[24],如图2-4所示,即使设定的爬虫入口网页是特定的新闻网页也很容易在遍历过程逡逑中跳转到其他类型的网页。随着遍历程度的加深,爬取主题的偏移也会逐渐加重。结逡逑合以上两点,对Heritrix进行爬取规则的定制,规定Heritrix只能对特定的网页链接进逡逑行解析爬取是很有必要的。逡逑16逡逑

【参考文献】

相关期刊论文 前10条

1 肖江;季节;;基于Heritrix的主题爬虫在互联网舆情系统中应用[J];电子设计工程;2015年06期

2 杜选;;基于加权补集的朴素贝叶斯文本分类算法研究[J];计算机应用与软件;2014年09期

3 王晓琴;李书琴;景旭;王蒙;;基于Nutch的农业垂直搜索引擎研究[J];计算机工程与设计;2014年06期

4 张皓;周学广;;基于Heritrix的增量式网络爬虫研究[J];软件导刊;2013年11期

5 覃世安;李法运;;文本分类中TF-IDF方法的改进研究[J];现代图书情报技术;2013年10期

6 刘海峰;苏展;刘守生;;一种基于词频信息的改进CHI文本特征选择[J];计算机工程与应用;2013年22期

7 李晶辉;张小刚;陈华;胡义函;;一种改进隐朴素贝叶斯算法的研究[J];小型微型计算机系统;2013年07期

8 刘高军;夏景隆;;基于Heritrix的网络爬虫研究与应用[J];软件导刊;2013年05期

9 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期

10 连凯;;基于SVM的汉语评论情感分类方法研究[J];现代计算机(专业版);2012年12期

相关博士学位论文 前1条

1 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年

相关硕士学位论文 前10条

1 秦添轶;多项文本挖掘关键技术的研究和实现[D];哈尔滨工业大学;2017年

2 李玉杰;半朴素贝叶斯分类器研究[D];中央民族大学;2017年

3 王峰;基于新浪微博舆情采集与倾向性分析系统[D];南京信息工程大学;2016年

4 顾盛;基于Lucene和Heritrix的小型主题搜索引擎的研究及实现[D];西安电子科技大学;2015年

5 张建伟;基于WEB文本挖掘的电子商务网站个性化推荐研究[D];安徽理工大学;2014年

6 李春生;面向海量数据的索引技术研究[D];华东师范大学;2013年

7 张畅畅;基于Heritrix和Lucene垂直搜索引擎的应用研究[D];昆明理工大学;2013年

8 王晓伟;垂直搜索引擎若干关键技术的研究[D];浙江大学;2007年

9 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年

10 寿周翔;专业搜索引擎的研究与设计[D];浙江大学;2005年



本文编号:2724024

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2724024.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d2940***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com