当前位置:主页 > 科技论文 > 搜索引擎论文 >

词向量语义模型研究及在主题爬虫系统中的应用

发布时间:2018-08-21 09:59
【摘要】:爬虫,即使用程序自动获取网页上的内容,在现在已经很流行,是搜索引擎的重要组成部分,也是进行有监督机器学习模型训练的语料获取重要方法之一。然而,在某些特定领域的研究,普通爬虫不再能够满足特定语料获取的需求,因此带有特定主题的垂直领域爬虫已经日益被需要。主题爬虫需要在获取一个新的网页或网页链接时,通过判断在语义上是否与主题相关,来判断是否爬取该页面。本文使用词向量进行语义表示,并联合点对互信息方法,对新的网页链接进行判断,决策继续爬取该页面,还是放弃爬取该页面。具体内容如下。介绍自然语言处理技术、深度学习技术、语言模型。并详细介绍基于矩阵和基于向量的两种词向量表示方法。然后基于维基百科中文语料,使用不同的参数训练模型,得出实验结论,并选出某一组参数,进行下面章节的研究。为了解决一词多义的问题,本文引入点对互信息(PMI,Pointwise Mutual Information)。根据上下文信息,判断该词在此处的意思。并通过上一部分的结论,选出一个效果最好的词向量模型,联合PMI进行实验。PMI的词对表容量巨大,普通的电脑内存无法装载,针对该问题,本文将给出一种解决方法。把以上两部分运用于垂直领域爬虫系统。使用宽度优先搜索的方法进行抓取,当爬虫系统遇到一个新的链接时,使用上一部分得出的模型,判断该连接词与主题词的相关程度。使用“程序员”、“家具”、“护肤”三个主题,在百度百科上分别爬取若干页面,并保留中间扔掉的链接,人工判断每个网页是否与主题相关,从而得出准确率,召回率等,并与不使用相关词技术的普通爬虫对比,从而更加客观的判断本文的垂直领域爬虫的效果。本文提出了使用语义模型表示和点对互信息,联合进行网页链接是否与主题词相关的判定,从而筛选出与主题词相关的网页链接,并得出客观的实验效果。
[Abstract]:Crawlers, even though they use programs to automatically retrieve the content of web pages, are now very popular. They are an important part of search engines and one of the important methods of corpus acquisition for supervised machine learning model training. However, in some specific areas of research, common reptiles can no longer meet the requirements of specific data acquisition, so vertical domain crawlers with specific topics have been increasingly needed. A topic crawler needs to determine whether to crawl a new page or a web page by judging whether it is semantically related to the topic or not. In this paper, we use word vector for semantic representation, and combine point-pair mutual information method to judge the new web page link, and decide whether to continue crawling the page or to give up crawling the page. The details are as follows. This paper introduces natural language processing technology, deep learning technology and language model. Two word vector representation methods based on matrix and vector are introduced in detail. Then, based on the Chinese corpus of Wikipedia, different parameter training models are used to obtain the experimental conclusions, and a set of parameters is selected for the study of the following chapters. In order to solve the problem of polysemy, this paper introduces the point pair mutual information (PMI) Pointwise Mutual Information). Judge the meaning of the word here based on the context information. Based on the conclusion of the previous part, a word vector model with the best effect is selected, and the word pair of words combined with PMI is very large, and the common computer memory can not be loaded. In view of this problem, this paper will give a method to solve this problem. The above two parts are applied to the vertical reptile system. When the crawler system encounters a new link, the model obtained from the previous part is used to judge the correlation between the link and the subject word. Using the three themes of "programmer", "furniture" and "skin care", crawling several pages on Baidu Encyclopedia and keeping the links thrown away in the middle, we can manually judge whether each web page is related to the theme, so as to get the accuracy, recall rate, etc. And compared with the common crawler without using the related word technology, it is more objective to judge the effect of the vertical domain reptile in this paper. In this paper, the semantic model representation and point-pair mutual information are used to determine whether the web link is related to the subject word, so that the web link related to the theme word can be screened out, and the objective experimental effect is obtained.
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3

【相似文献】

相关期刊论文 前10条

1 金金;陈仪香教授与计算语义模型研究[J];上海师范大学学报(自然科学版);2002年04期

2 张大鹏,周军锋,陈宝峰;一种结合外部环境状态的主体语义模型[J];燕山大学学报;2005年04期

3 王煜;周立柱;邢春晓;;视频语义模型及评价准则[J];计算机学报;2007年03期

4 赵正利;王国宇;籍芳;;一种基于相关反馈的图像内在语义模型[J];微计算机信息;2007年24期

5 黄睿航;张园园;黄思沛;;基于语义模型的网络社群学习指导策略初探[J];无线互联科技;2013年06期

6 曹化工,,秦友淑;工程信息结构的语义模型[J];计算机辅助设计与图形学学报;1996年01期

7 吕琳,孟祥旭,徐延宁;复杂产品的层次语义模型研究[J];中国机械工程;2004年15期

8 李晓建,陈磊,陈世鸿;教育资源语义模型研究[J];武汉大学学报(理学版);2005年03期

9 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期

10 董小峰;张树生;赵寒;周竞涛;冯峗;田占强;;基于语义模型的企业数据检索[J];制造技术与机床;2006年09期

相关会议论文 前5条

1 宋春阳;;从字到字组的语义解释模型[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

2 张辉;宋晓;张霖;;面向数字化设计的产品共享信息语义模型研究[A];全国先进制造技术高层论坛暨第八届制造业自动化与信息化技术研讨会论文集[C];2009年

3 王煜;周立柱;邢春晓;;SemTTe:针对具有结构化时态与类型化事件的视频的语义模型[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年

4 魏勇;欧阳峰;陈刚;;基于语义的虚拟场景编辑系统设计[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年

5 王煜;周立柱;邢春晓;;视频语义模型SemTTE及其查询语言VSQL[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年

相关博士学位论文 前4条

1 李学宁;现代汉语形容词概念语义模型研究[D];上海交通大学;2008年

2 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年

3 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年

4 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年

相关硕士学位论文 前10条

1 胡海彪;鱼类目标三维空间行为语义模型研究[D];浙江工业大学;2015年

2 周磊;基于在线快速学习隐语义模型的个性化新闻推荐[D];南京邮电大学;2015年

3 刘琴;基于依存关系的语义表示方法研究[D];哈尔滨工业大学;2016年

4 范继强;提取直陈述小学数学应用题数量关系的一个语义模型池[D];华中师范大学;2016年

5 范玉强;基于隐语义模型的推荐系统研究[D];贵州大学;2016年

6 陈光颖;基于谓词逻辑的需求追踪方法研究[D];南京航空航天大学;2016年

7 张祯;Web服务多维度语义模型的实现研究[D];天津大学;2014年

8 孟竹;词向量语义模型研究及在主题爬虫系统中的应用[D];中国地质大学(北京);2017年

9 杜百玲;服务组装的可信语义模型的研究[D];哈尔滨工程大学;2009年

10 孙聪凯;语义模型、近似推理算法及其在网页分类的应用[D];上海交通大学;2009年



本文编号:2195356

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2195356.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户609f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com