当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于统计机器翻译与主题传播的聚焦爬虫的研究与实现

发布时间:2018-01-20 01:29

  本文关键词: 聚焦爬虫 锚文本 统计机器翻译 主题传播 主题相关度预测 文本分类 出处:《浙江大学》2013年硕士论文 论文类型:学位论文


【摘要】:搜索引擎的发展使得互联网的使用变得更加便捷。人们通过搜索引擎,可以方便地从互联网上搜索到各行各业的相关信息。互联网的数据规模可以用海量形容,而现在的搜索引擎只收录了互联网所有资源中的一部分。爬虫是搜索引擎中一个重要部分,对于搜索引擎有着至关重要的作用。如何在有限的资源情况下爬取更多与人们感兴趣内容相关的网页,成为工业界和学术界的热门话题,聚焦爬虫也因此应运而生。 本文的主要研究内容是基于统计机器翻译的锚文本主题相关度预测与基于网页主题传播的聚焦爬虫算法及其实现。一般情况下锚文本较短,在大多现有使用锚文本的聚焦爬虫中,都对锚文本进行了上下文扩展。然而对于一个与主题不相关的锚文本,在上下文扩展之后可能引入与主题相关的内容。本文将锚文本与主题之间的关系视为噪声信道中信息编码的过程,进而提出了基于统计机器翻译的锚文本主题相关度预测算法。然而仅仅使用锚文本这样的网页内容,很可能会丢掉一些虽然与主题不相关但是却包含大量与主题相关外链的网页。使用网页链接结构分析是解决上述问题的一个方法。本文在前人工作的基础上,提出了基于网页主题传播的聚焦爬虫算法,并将锚文本主题相关度预测算法融入到网页主题传播模型中,旨在提高聚焦爬虫的效果。 本文最终设计并实现了一个聚焦爬虫系统原型,从互联网上爬取大量的特定主题数据,并将本文提出的算法与一些经典的聚焦爬取算法作了分析与比较。实验结果表明本文提出的算法具有更好的效果。
[Abstract]:The development of the search engine makes use of the Internet has become more convenient. People can search through the search engine, easily from the Internet to the relevant information from all walks of life. The Internet can be used to describe the massive scale of data, and now the search engine contains only a part of the Internet resources. Crawler is an important part of search engine which plays a crucial role in the search engines. How to take up more people interested in the content of the web page in the limited resources, has become a hot topic in academia and industry, focused crawler also arises at the historic moment.
The main content of this paper is the anchor text topic relevance statistical prediction based on Machine Translation and based on focused crawler algorithm and its theme "spread. In general the anchor text is short, in most of the existing crawler using the anchor text, the anchor text of context extension. However for a irrelevant the anchor text, in the context of expansion after the possibility of introducing relevant content and topic. The relationship between anchor text and theme as a process of information encoding channel noise, and then put forward the anchor text subject correlation prediction algorithm based on the statistics of Machine Translation. However, only use the anchor text page content that is likely to lose although some are not related to the topic but contains a large number of related to the theme of the chain page. Use the homepage link structure analysis is to solve the above problems a Based on previous works, we propose a focused crawler algorithm based on Web Topic propagation, and integrate anchor text topic correlation prediction algorithm into webpage topic propagation model, aiming to improve the effect of focused crawler.
The final design and a focused crawler system prototype, crawling specific topic a lot of data from the Internet, and will focus on the algorithm proposed in this paper and some classical algorithms are analysed and compared. The experimental results show that the proposed algorithm has better effect.

【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 冯志伟;;机器翻译与语言研究(下)[J];术语标准化与信息技术;2007年04期

2 张涛;;机器翻译的发展与基于短语的统计机器翻译[J];山西广播电视大学学报;2009年04期

3 王丽;韩习武;;双语词典在统计机器翻译中的应用[J];计算机工程与应用;2010年16期

4 林政;吕雅娟;刘群;马希荣;;Web平行语料挖掘及其在机器翻译中的应用[J];中文信息学报;2010年05期

5 郎君;;统计机器翻译中翻译模型的约简概述[J];智能计算机与应用;2011年03期

6 周玉,宗成庆,徐波;基于多层过滤的统计机器翻译[J];中文信息学报;2005年03期

7 强静;张建;;基于短语的统计机器翻译中短语抽取算法改进[J];计算机工程与应用;2008年13期

8 孙广范;宋金平;肖健;袁琦;;句法调序的统计机器翻译方法研究[J];计算机工程与应用;2009年36期

9 任高举;吐尔根·伊布拉音;艾山·吾买尔;;统计机器翻译中汉维短语对抽取的研究[J];新疆大学学报(自然科学版);2010年03期

10 李响;徐金安;姜文斌;吕雅娟;刘群;;面向移动终端的统计机器翻译解码定点化方法[J];中文信息学报;2011年02期

相关会议论文 前10条

1 杜金华;王莎;;西安理工大学统计机器翻译系统技术报告(英文)[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年

2 于惠;谢军;熊皓;吕雅娟;刘群;林守勋;;基于篇章上下文的统计机器翻译方法[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年

3 梁芳丽;李淼;李文;陈雷;乌达巴拉;;统计机器翻译中的源语言重排序方法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

4 朱海;李淼;张建;乌达巴拉;;系统融合方法在汉蒙统计机器翻译上的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

5 董兴华;周俊林;郭树盛;吐尔洪·吾司曼;;基于短语的汉维(维汉)统计机器翻译研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年

6 王春荣;宝美荣;王斯日古楞;;内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年

7 姚树杰;肖桐;朱靖波;;基于句对质量和覆盖度的统计机器翻译训练语料选取[A];第五届全国青年计算语言学研讨会论文集[C];2010年

8 李响;徐金安;刘群;吕雅娟;姜文斌;;移动终端机器翻译设备的解码定点化方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年

9 巢文涵;李舟军;;ZZX_MT系统CWMT2011评测报告[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年

10 张育;李良友;贡正仙;周国栋;;粘贴模型在依存语法统计机器翻译中的应用[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

相关重要报纸文章 前10条

1 任悦采写 本报记者 方妍;照片买家说,,网页繁复不招喜欢[N];中国摄影报;2009年

2 鸣涧;走近3D梦幻网页(3)[N];中国电脑教育报;2002年

3 湖南 Ringfo;防止你的网页被“偷拍”[N];电脑报;2002年

4 路人甲;在网页上圈圈点点[N];电脑报;2004年

5 湖南 郭荣辉;网页图片保存四法[N];电子报;2005年

6 鸣涧;网页的编辑[N];中国电脑教育报;2002年

7 鸣涧;初次握手3D网页[N];中国电脑教育报;2002年

8 辽宁 张策;滚动的字幕 滚动的网页[N];中国电脑教育报;2002年

9 李芳香;和网页垃圾说再见[N];中国电脑教育报;2002年

10 马淑芬 记者 吴岳福;宝清 率先启动“村村通网页”工程[N];黑龙江日报;2010年

相关博士学位论文 前10条

1 蒋宏飞;基于同步树替换文法的统计机器翻译方法研究[D];哈尔滨工业大学;2010年

2 段楠;统计机器翻译的一致性解码方法研究[D];天津大学;2012年

3 刘乐茂;统计机器翻译判别式训练方法研究[D];哈尔滨工业大学;2013年

4 梁华参;基于短语的统计机器翻译模型训练中若干关键问题的研究[D];哈尔滨工业大学;2013年

5 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年

6 黄书剑;统计机器翻译中的词对齐研究[D];南京大学;2012年

7 陈毅东;基于短语的统计机器翻译模型若干关键技术研究[D];厦门大学;2008年

8 林建方;词搭配抽取及在信息检索中的应用研究[D];哈尔滨工业大学;2010年

9 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年

10 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

相关硕士学位论文 前10条

1 甘锡云;基于统计机器翻译与主题传播的聚焦爬虫的研究与实现[D];浙江大学;2013年

2 李函章;统计机器翻译中语料选择方法研究[D];黑龙江大学;2010年

3 宋美娜;基于词缀特征的汉蒙统计机器翻译系统[D];内蒙古大学;2010年

4 李天宁;词对齐技术研究及统计机器翻译平台的构建[D];东北大学;2009年

5 张涛;面向特定领域的统计机器翻译研究与应用[D];昆明理工大学;2011年

6 李磊;基于依存句法的汉语—纳西语统计机器翻译研究[D];昆明理工大学;2013年

7 张育;基于依存语法的统计机器翻译研究[D];苏州大学;2011年

8 宝美荣;融入形态学分析的汉蒙统计机器翻译研究[D];内蒙古师范大学;2012年

9 王春荣;基于层次短语的汉蒙统计机器翻译后处理研究[D];内蒙古师范大学;2013年

10 银花;基于短语的蒙汉统计机器翻译研究[D];内蒙古师范大学;2011年



本文编号:1446292

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1446292.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户da59c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com