当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于主题相关概念和网页分块的主题爬虫研究

发布时间:2018-05-11 21:18

  本文选题:主题爬虫 + 主题相关概念 ; 参考:《计算机应用研究》2013年08期


【摘要】:针对传统主题爬虫的不足,提出一种基于主题相关概念和网页分块的主题爬虫。先通过主题分类树获取主题相关概念集合,然后结合主题描述文档构建主题向量来描述主题;下载网页后引入网页分块来穿越"灰色隧道";采用文本内容和链接结构相结合的策略计算候选链接优先级,并在HITS算法的基础上提出了R-HITS算法计算链接结构对候选链接优先级的贡献。实验结果表明,利用该方法实现的主题爬虫查准率达66%、信息量总和达53%,在垂直搜索引擎和舆情分析应用方面有更好的搜索效果。
[Abstract]:Aiming at the deficiency of traditional theme crawler, a topic crawler based on topic related concept and web page block is proposed. Firstly, the topic related concept set is obtained through the topic classification tree, and then the topic vector is constructed with the topic description document to describe the topic. After downloading the web page, the section of the page is introduced to traverse the "gray tunnel", and the strategy of combining the text content with the link structure is used to calculate the priority of the candidate link. On the basis of HITS algorithm, the contribution of link structure to candidate link priority is calculated by R-HITS algorithm. The experimental results show that the precision rate of subject crawler achieved by this method is 66 and the total amount of information is 53. It has better search effect in vertical search engine and public opinion analysis application.
【作者单位】: 重庆大学计算机学院;
【基金】:国家自然科学基金资助项目(71102065)
【分类号】:TP393.092

【参考文献】

相关期刊论文 前2条

1 蒋宗礼;徐学可;李帅;;一种基于超链接引导的主题搜索的主题敏感爬行方法[J];计算机应用;2008年04期

2 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期

相关博士学位论文 前1条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

【共引文献】

相关期刊论文 前10条

1 武昊;廖安平;何超英;侯东阳;;基于主题相关度的地理信息Web服务爬虫研究[J];地理与地理信息科学;2012年02期

2 李园伟;;面向高校主题搜索引擎的的爬行器设计[J];电脑知识与技术;2011年16期

3 陈志雄;朱向庆;;基于内容评价与超链分析的主题爬虫策略[J];广西轻工业;2011年03期

4 熊忠阳;史艳;张玉芳;;基于维基百科和网页分块的主题爬行策略[J];计算机应用;2011年12期

5 熊忠阳;史艳;张玉芳;;基于信息增益的自适应主题爬行策略[J];计算机应用研究;2012年02期

6 魏晶晶;杨定达;廖祥文;;基于网页内容相似度改进算法的主题网络爬虫[J];计算机与现代化;2011年09期

7 韩国辉;陈黎;梁时木;唐小棚;王亚强;于中华;;Na釭ve Bayes分类器制导的专业网页爬取算法[J];中文信息学报;2010年04期

8 彭浩;蔡美玲;陈继锋;刘炽;余炳锐;;面向导航型网页关键词自动抽取的视觉模型与算法[J];计算机应用;2012年08期

9 王静;何婷婷;衣马木艾山·阿布都力克木;;协同过滤在中文维基百科类别推荐上的应用[J];计算机应用;2013年03期

10 张翔;周明全;李智杰;董丽丽;;基于PageRank与Bagging的主题爬虫研究[J];计算机工程与设计;2010年14期

相关博士学位论文 前2条

1 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年

2 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年

相关硕士学位论文 前10条

1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年

2 卢承山;基于领域的主题信息采集技术研究[D];武汉理工大学;2011年

3 邱伟林;面向领域的垂直搜索引擎的研究与实现[D];大连海事大学;2011年

4 李蕊;基于网络爬虫技术的多源下载系统的设计与实现[D];北京邮电大学;2011年

5 陈恒;基于内容的视频搜索引擎[D];北京邮电大学;2011年

6 郑小波;基于语义的主题搜索引擎研究[D];安徽大学;2011年

7 张仲祥;基于领域本体的Deep Web数据源聚焦技术研究[D];广西师范大学;2011年

8 李明铭;基于网络信息提取和网络空间服务的二手房产价格指数编制研究[D];南京师范大学;2011年

9 詹恒飞;分布式图片搜索引擎设计与实现[D];国防科学技术大学;2010年

10 苏晓辉;构件垂直搜索引擎的关键技术研究[D];华中科技大学;2011年

【二级参考文献】

相关期刊论文 前10条

1 荆涛,左万利;基于可视布局信息的网页噪音去除算法[J];华南理工大学学报(自然科学版);2004年S1期

2 杨沛,郑启伦,彭宏;Inherit/Feedback:一种新的Web主题挖掘方法[J];计算机研究与发展;2004年05期

3 李晓亚;赫枫龄;左万利;;基于网页分块技术主题爬行器的实现[J];吉林大学学报(理学版);2007年06期

4 于满泉,陈铁睿,许洪波;基于分块的网页信息解析器的研究与设计[J];计算机应用;2005年04期

5 周立柱,林玲;聚焦爬虫技术研究综述[J];计算机应用;2005年09期

6 赵佳鹤;王秀坤;刘亚欣;;基于语义分析的主题信息采集系统的设计与实现[J];计算机应用;2007年02期

7 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期

8 欧健文,董守斌,蔡斌;模板化网页主题信息的提取方法[J];清华大学学报(自然科学版);2005年S1期

9 封化民,刘飚,刘艳敏,方勇,宋国森;含有位置坐标树的Web页面分析和内容提取框架[J];清华大学学报(自然科学版);2005年S1期

10 苏祺;项锟;孙斌;;基于链接聚类的Shark-Search算法[J];山东大学学报(理学版);2006年03期

相关博士学位论文 前2条

1 彭涛;面向专业搜索引擎的主题爬行技术研究[D];吉林大学;2007年

2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

【相似文献】

相关期刊论文 前10条

1 陈晓云;莫明辉;李廉;赵燕;;基于网络日志分析的混合策略主题爬虫[J];微计算机信息;2009年03期

2 郑国良;叶飞跃;张滨;林国俊;;基于网页内容和链接价值的相关度方法的实现[J];计算机工程与设计;2008年23期

3 王芳;于浩;谭红叶;赵铁军;;基于链接分块的相关链接提取方法[J];计算机工程与应用;2006年31期

4 郑皎凌;王成良;;网页分块聚类的Web站点逻辑域挖掘[J];计算机工程;2007年04期

5 徐薇;;Web信息采集中页面分块技术的研究[J];武汉科技学院学报;2007年05期

6 关慧芬;师军;马继红;;基于遗传算法的主题爬行技术研究[J];计算机与数字工程;2008年10期

7 任小燕;康小军;张红卫;;基于动态隧道算法的网络爬行器设计与实现[J];现代图书情报技术;2008年06期

8 左洪亮,裴学胜,刘丽萍;网页设计中的网站目录结构和链接结构问题[J];现代计算机;2002年09期

9 汪涛,樊孝忠;主题爬虫的设计与实现[J];计算机应用;2004年S1期

10 夏诏杰;梁春燕;郭力;;化学主题网络爬虫的设计和实现[J];计算机工程与应用;2006年10期

相关会议论文 前10条

1 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

2 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

3 陈小飞;王轶彤;;一种基于链接结构的Spam网页过滤算法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

4 冯迪;李晋宏;曹原;;基于网页的数据挖掘研究[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年

5 薛宇飞;刘奕群;张敏;马少平;茹立云;;基于用户浏览图的网页质量评估方法的比较分析[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

6 金锋;张玉平;张岩;郝艾芳;;电子技术网络教学系统的建设[A];全国电子技术研究会2005年会论文集[C];2005年

7 吴娜;吴解万;;校园网站的建设与设计[A];第二届全国解剖学技术学术会议论文集[C];2009年

8 刘绍波;胡盈;郑涵;乐嘉锦;;Web站点链接结构的动态调整模型研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

9 吴炜;梁昆;李瑞轩;辜希武;卢正鼎;;一种基于主题相关度的网页排序算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年

10 王灿辉;张敏;马少平;;Web作弊与反作弊技术综述[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

相关重要报纸文章 前1条

1 孙富春 李磊;电子政务中的数据挖掘[N];计算机世界;2001年

相关博士学位论文 前4条

1 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年

2 江开忠;上下文感知的Web搜索关键技术研究[D];华东师范大学;2008年

3 王晓宇;Web搜索与Web缓存的若干关键问题研究[D];复旦大学;2003年

4 王欣;WEB应用系统安全检测关键技术研究[D];北京邮电大学;2011年

相关硕士学位论文 前10条

1 李京京;主题爬虫的关键技术研究[D];吉林大学;2008年

2 朱良峰;主题网络爬虫的研究与设计[D];南京理工大学;2008年

3 王荣华;HWME中“广义专家”群体网络研讨过程的链接结构及其分析算法研究[D];昆明理工大学;2009年

4 徐涛;基于社会网络分析的藏文web链接结构研究[D];西北民族大学;2011年

5 李正文;基于SVM分类算法的主题爬虫研究[D];哈尔滨工程大学;2011年

6 海涛;垂直搜索引擎数据采集技术的研究与实现[D];华北电力大学(北京);2008年

7 李丽;基于云计算的Web链接结构分析及应用研究[D];电子科技大学;2011年

8 杨贞;基于本体的主题爬虫的设计与实现[D];合肥工业大学;2008年

9 魏超;社交网络中的链接预测研究[D];华中科技大学;2012年

10 杨明翰;面向手持式设备的WEB页面自动切割技术研究[D];电子科技大学;2009年



本文编号:1875659

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1875659.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4bc23***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com