词向量语义模型研究及在主题爬虫系统中的应用
[Abstract]:Crawlers, even though they use programs to automatically retrieve the content of web pages, are now very popular. They are an important part of search engines and one of the important methods of corpus acquisition for supervised machine learning model training. However, in some specific areas of research, common reptiles can no longer meet the requirements of specific data acquisition, so vertical domain crawlers with specific topics have been increasingly needed. A topic crawler needs to determine whether to crawl a new page or a web page by judging whether it is semantically related to the topic or not. In this paper, we use word vector for semantic representation, and combine point-pair mutual information method to judge the new web page link, and decide whether to continue crawling the page or to give up crawling the page. The details are as follows. This paper introduces natural language processing technology, deep learning technology and language model. Two word vector representation methods based on matrix and vector are introduced in detail. Then, based on the Chinese corpus of Wikipedia, different parameter training models are used to obtain the experimental conclusions, and a set of parameters is selected for the study of the following chapters. In order to solve the problem of polysemy, this paper introduces the point pair mutual information (PMI) Pointwise Mutual Information). Judge the meaning of the word here based on the context information. Based on the conclusion of the previous part, a word vector model with the best effect is selected, and the word pair of words combined with PMI is very large, and the common computer memory can not be loaded. In view of this problem, this paper will give a method to solve this problem. The above two parts are applied to the vertical reptile system. When the crawler system encounters a new link, the model obtained from the previous part is used to judge the correlation between the link and the subject word. Using the three themes of "programmer", "furniture" and "skin care", crawling several pages on Baidu Encyclopedia and keeping the links thrown away in the middle, we can manually judge whether each web page is related to the theme, so as to get the accuracy, recall rate, etc. And compared with the common crawler without using the related word technology, it is more objective to judge the effect of the vertical domain reptile in this paper. In this paper, the semantic model representation and point-pair mutual information are used to determine whether the web link is related to the subject word, so that the web link related to the theme word can be screened out, and the objective experimental effect is obtained.
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 金金;陈仪香教授与计算语义模型研究[J];上海师范大学学报(自然科学版);2002年04期
2 张大鹏,周军锋,陈宝峰;一种结合外部环境状态的主体语义模型[J];燕山大学学报;2005年04期
3 王煜;周立柱;邢春晓;;视频语义模型及评价准则[J];计算机学报;2007年03期
4 赵正利;王国宇;籍芳;;一种基于相关反馈的图像内在语义模型[J];微计算机信息;2007年24期
5 黄睿航;张园园;黄思沛;;基于语义模型的网络社群学习指导策略初探[J];无线互联科技;2013年06期
6 曹化工,,秦友淑;工程信息结构的语义模型[J];计算机辅助设计与图形学学报;1996年01期
7 吕琳,孟祥旭,徐延宁;复杂产品的层次语义模型研究[J];中国机械工程;2004年15期
8 李晓建,陈磊,陈世鸿;教育资源语义模型研究[J];武汉大学学报(理学版);2005年03期
9 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
10 董小峰;张树生;赵寒;周竞涛;冯峗;田占强;;基于语义模型的企业数据检索[J];制造技术与机床;2006年09期
相关会议论文 前5条
1 宋春阳;;从字到字组的语义解释模型[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 张辉;宋晓;张霖;;面向数字化设计的产品共享信息语义模型研究[A];全国先进制造技术高层论坛暨第八届制造业自动化与信息化技术研讨会论文集[C];2009年
3 王煜;周立柱;邢春晓;;SemTTe:针对具有结构化时态与类型化事件的视频的语义模型[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 魏勇;欧阳峰;陈刚;;基于语义的虚拟场景编辑系统设计[A];Proceedings of 14th Chinese Conference on System Simulation Technology & Application(CCSSTA’2012)[C];2012年
5 王煜;周立柱;邢春晓;;视频语义模型SemTTE及其查询语言VSQL[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
相关博士学位论文 前4条
1 李学宁;现代汉语形容词概念语义模型研究[D];上海交通大学;2008年
2 石跃祥;计算机视觉图像语义模型的描述方法研究[D];中南大学;2005年
3 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
4 余卫宇;几种图像结构语义模型和图像[D];华南理工大学;2005年
相关硕士学位论文 前10条
1 胡海彪;鱼类目标三维空间行为语义模型研究[D];浙江工业大学;2015年
2 周磊;基于在线快速学习隐语义模型的个性化新闻推荐[D];南京邮电大学;2015年
3 刘琴;基于依存关系的语义表示方法研究[D];哈尔滨工业大学;2016年
4 范继强;提取直陈述小学数学应用题数量关系的一个语义模型池[D];华中师范大学;2016年
5 范玉强;基于隐语义模型的推荐系统研究[D];贵州大学;2016年
6 陈光颖;基于谓词逻辑的需求追踪方法研究[D];南京航空航天大学;2016年
7 张祯;Web服务多维度语义模型的实现研究[D];天津大学;2014年
8 孟竹;词向量语义模型研究及在主题爬虫系统中的应用[D];中国地质大学(北京);2017年
9 杜百玲;服务组装的可信语义模型的研究[D];哈尔滨工程大学;2009年
10 孙聪凯;语义模型、近似推理算法及其在网页分类的应用[D];上海交通大学;2009年
本文编号:2195356
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2195356.html