当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于本体进化的专题信息采集方法研究

发布时间:2019-02-08 18:56
【摘要】:互联网的出现,为人们提供了一个获取信息的新渠道。人们在拥有一个呈爆炸式增长的信息源的同时,也面临着如何从中快速准确地获取与特定专题相关信息的难题。通用搜索引擎是目前最为常用的信息检索工具,但由于其自身是面向大众,很难及时、准确地为人们提供特定的专题信息。在这种情形下,面向专题的信息采集已然成为当前的研究热点之一。 本文中,首先对国内外专题信息采集技术和本体进化的研究现状作了简单概述,介绍了网络信息采集技术的基本原理和结构,以及主要的发展方向,同时对文本相似度计算理论和本体相关理论进行了梳理。然后,针对互联网上几种信息来源设计相应的采集策略,包括目标网站全站遍历、目标版块定向跟踪、RSS源定时增量更新。然后设计专题本体进化方案,主要内容有网页内容提取、正文特征词抽取、初始专题本体构建以及专题本体的进化。最后,设计实现实验系统,选取示例专题,构建初始专题本体,对本文提出的方法进行实验验证。 本文的主要工作在于:①针对不同的信息源设计相应的采集策略,使信息采集器能适应互联网上复杂的信息采集环境,在专题本体的指导下,从互联网上的多种信息源中采集专题相关信息;②提出了专题本体半自动进化的方法,基于网页集和用户行为日志,结合特征词抽取技术,在用户的指导下实现专题本体的进化,,并通过实验验证方案的有效性。
[Abstract]:The emergence of the Internet provides a new channel for people to obtain information. At the same time, people are faced with the problem of how to obtain information related to a specific topic quickly and accurately. General search engine is the most commonly used information retrieval tool at present, but it is difficult to provide specific information for people in time and accurately because it is oriented to the public. In this case, subject-oriented information collection has become one of the current research hotspots. In this paper, first of all, the research status of thematic information collection technology and ontology evolution at home and abroad is briefly summarized, and the basic principle and structure of network information collection technology, as well as the main development direction, are introduced. At the same time, the theory of text similarity calculation and ontology theory are combed. Then, the corresponding acquisition strategies are designed for several information sources on the Internet, including the target site traversing the whole station, the target block orientation tracking, and the RSS source timing incremental update. Then we design an evolutionary scheme of thematic ontology, which includes web page content extraction, text feature extraction, initial topic ontology construction and thematic ontology evolution. Finally, the experimental system is designed and implemented, and the experimental verification of the proposed method is carried out by selecting the sample topic and constructing the initial thematic ontology. The main work of this paper is as follows: 1 according to different information sources, the information collector can adapt to the complex information collection environment on the Internet, under the guidance of the subject ontology, Collecting relevant information from a variety of information sources on the Internet; 2. A semi-automatic evolution method of thematic ontology is proposed. Based on web pages and user behavior logs, the evolution of thematic ontology is realized under the guidance of users, and the effectiveness of the scheme is verified by experiments.
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【参考文献】

相关期刊论文 前9条

1 陈岩;魏海平;孙殿哲;;基于元搜索的专业搜索引擎的设计[J];辽宁石油化工大学学报;2010年02期

2 李盛韬;余智华;程学旗;白硕;;Web信息采集研究进展[J];计算机科学;2003年02期

3 郑家恒,卢娇丽;关键词抽取方法的研究[J];计算机工程;2005年18期

4 李卫;刘建毅;何华灿;王枞;;基于主题的智能Web信息采集系统的研究与实现[J];计算机应用研究;2006年02期

5 马文峰;杜小勇;;领域本体进化研究[J];图书情报工作;2006年06期

6 拜战胜;徐德智;彭佳红;陈光仪;;基于主题本体的信息采集模型研究[J];计算机技术与发展;2009年10期

7 徐猛;胡平;;基于VSM的网页主题相关性算法的研究[J];微计算机信息;2009年12期

8 傅向华,冯博琴,马兆丰,何明;可在线增量自学习的聚焦爬行方法[J];西安交通大学学报;2004年06期

9 徐德智;郭渭莉;;基于本体的主题相关度算法研究[J];云南大学学报(自然科学版);2007年S1期



本文编号:2418683

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2418683.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户650ef***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com