当前位置:主页 > 科技论文 > 搜索引擎论文 >

一种基于语义分析的主题爬虫算法

发布时间:2018-05-17 15:21

  本文选题:主题爬虫 + 子空间 ; 参考:《计算机工程与科学》2010年09期


【摘要】:海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。
[Abstract]:The existence and rapid growth of massive web pages make it difficult for general search engines to provide satisfactory results for subject-oriented or domain-oriented queries. The topic crawler studied in this paper is dedicated to collecting theme-related information in order to greatly reduce the amount of web page processing. It evaluates the theme relevance of the web pages, and preferentially crawls the pages with higher relevance. A highly efficient subject crawler is designed and implemented by using a subspace-based semantic analysis technique combined with Bayesian and support vector machines. Experiments show that the algorithm has good accuracy and high efficiency.
【作者单位】: 北京工业大学计算机学院;
【分类号】:TP391.3

【参考文献】

相关期刊论文 前1条

1 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期

【共引文献】

相关期刊论文 前3条

1 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期

2 傅向华;冯博琴;;一种支持复杂查询的有组织P2P搜索方法[J];小型微型计算机系统;2006年03期

3 傅向华;冯博琴;;主题驱动的P2P分布式信息搜索机制研究[J];小型微型计算机系统;2006年04期

相关硕士学位论文 前2条

1 魏霞;面向网络教育的学习评价依据采集系统的研究与实现[D];浙江工业大学;2007年

2 谢德辉;面向刑侦网页的信息抽取与主题爬虫应用研究[D];大连理工大学;2007年

【二级参考文献】

相关期刊论文 前1条

1 宫秀军,史忠植;基于Bayes潜在语义模型的半监督Web挖掘[J];软件学报;2002年08期

【相似文献】

相关期刊论文 前10条

1 付淇;李正凡;;基于CLIQUE的聚类算法研究[J];华东交通大学学报;2006年05期

2 陈慧萍;王煜;王建东;;子空间聚类算法的研究新进展[J];计算机仿真;2007年03期

3 姜文瀚;周晓飞;杨静宇;;子空间样本选择及其支持向量机人脸识别应用[J];计算机工程与应用;2007年20期

4 周红福;宫学庆;郑凯;周傲英;;基于高维空间的在线高效子空间Skyline算法——CSky[J];计算机学报;2007年08期

5 葛凌云;张继福;蔡江辉;;基于微粒群和子空间的离群数据挖掘算法研究[J];系统仿真学报;2009年07期

6 张强;吴腾飞;杨颖;;基于候选对象裁剪的密度子空间聚类[J];天津大学学报;2010年07期

7 廖海斌;徐洪章;;基于鉴别主成份分析的基因表达数据特征提取[J];燕山大学学报;2010年05期

8 王庆军;张汝波;;基于Log-Gabor和正交等度规映射的人脸识别[J];计算机科学;2011年02期

9 陈立珍;崔国勤;李卓;;基于子空间增量学习的视频中人脸图像检索[J];计算机辅助设计与图形学学报;2007年09期

10 李霞;徐树维;;子空间聚类改进算法研究综述[J];计算机仿真;2010年05期

相关会议论文 前6条

1 刘兵;胡学钢;;基于多链接分析的主题爬虫设计实现[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年

2 任海果;张淼;;基于站内搜索的分布式主题爬虫的研究与设计[A];2011年亚太智能电网与信息工程学术会议论文集[C];2011年

3 马帅;吴飞;杨易;邵健;;基于稀疏非负矩阵分解的图像检索[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年

4 仝明磊;韩红;;随机字典的粒子滤波视频跟踪[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年

5 庄连生;高浩渊;刘超;俞能海;;非负稀疏局部线性编码[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年

6 吕前行;周治平;纪志成;;基于小波包和神经网络的虹膜图像分类方法[A];第二十六届中国控制会议论文集[C];2007年

相关博士学位论文 前10条

1 周红福;基于索引的Skyline算法研究[D];复旦大学;2007年

2 孙圣力;数据流上Skyline查询处理算法研究[D];复旦大学;2008年

3 黄震华;子空间SKYLINE查询若干关键问题的研究[D];复旦大学;2008年

4 王述云;数据流频繁项挖掘与聚类分析的研究[D];复旦大学;2008年

5 孔万增;基于学习的人脸识别研究[D];浙江大学;2008年

6 贺玲;面向大规模图像库的层次化索引机制研究[D];国防科学技术大学;2006年

7 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年

8 杨波;图驱动的无监督降维和判别子空间学习研究及其应用[D];南京航空航天大学;2010年

9 李学勇;金属标牌压印凹凸字符的特征提取和识别方法研究[D];山东大学;2008年

10 许丹;辐射源指纹机理及识别方法研究[D];国防科学技术大学;2008年

相关硕士学位论文 前10条

1 苏进;一种分层聚类模型及其在电信行业的应用研究[D];合肥工业大学;2005年

2 王静;基于贝叶斯的人脸识别[D];郑州大学;2006年

3 谭坤;快速子空间追踪算法研究[D];电子科技大学;2010年

4 张东波;基于非负矩阵分解的基因数据子空间分类研究[D];西安电子科技大学;2005年

5 王洪;基于子空间的手写字符集成识别研究与应用[D];重庆大学;2003年

6 梁鹏;基于子空间的人脸图像处理与识别方法研究[D];南京航空航天大学;2002年

7 杜育林;基于信息熵的高维分类型数据子空间聚类算法研究[D];汕头大学;2011年

8 黄杰;KNNModel算法的改进及其应用[D];福建师范大学;2011年

9 王斐;基于增量反馈和自适应机制的主题爬虫系统的设计与实现[D];南京理工大学;2005年

10 刘朋;基于Lucene的垂直搜索引擎关键技术的研究应用[D];武汉理工大学;2009年



本文编号:1901861

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1901861.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f8897***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com