当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于本体的自适应Web信息抽取方法研究

发布时间:2018-02-06 03:06

  本文关键词: 信息获取 信息抽取 本体学习 自适应信息抽取 领域资源发现关系抽取 基于本体的信息抽取 出处:《中国科学技术大学》2012年博士论文 论文类型:学位论文


【摘要】:互联网的快速发展产生了海量的信息,由于Web页面的多样性和异构性,对这些的信息进行检索和处理受到很大的限制,而Web信息抽取则致力于将这些信息转化成结构化的数据,满足垂直搜索引擎和数据挖掘等相关应用。同时,为了实现语义网的目标,赋予Web意义,需要对Web上的内容进行标注,基于本体的信息抽取可以产生用于语义网的元数据标注信息,将Web信息转化成机器方便处理的数据,即语义网有效的数据。 在农业领域,互联网上积累了丰富的农业相关信息资源,包括供求信息、价格信息、农业技术、市场动态、农业新闻、农业企业、农业视频等,但缺少一致的语义表达形式,很难充分发挥这些资源的作用。此外,由于农业领域相关用户自身知识结构水平的限制,在获取所需要的信息时更加困难,而农业垂直搜索引擎则可以弥补这方面的不足,实现异构分散数据的集成,通过构建满足用户需求的专业搜索引擎,解决“三农”用户在面对海量农业Web资源时的信息获取瓶颈问题。本文以研究Web环境下基于本体的信息抽取方法为基础,为农业垂直搜索引擎(中国搜农)和农业数据挖掘应用提供有效的数据支持,服务于国家的农业信息化建设为目标,开展了相关的研究。论文的主要工作内容总结如下: (1)针对互联网上网页数据的开放性、异构性、演化性等特征,构建了一种基于本体的自适应Web信息抽取模型。模型采用模块化的结构搭建,实现抽取算法与领域本体知识之间的分离,以及模块功能的复用,方便系统功能的动态更新,减少信息抽取系统在跨领域移植时的开销。 (2)针对传统方法在构建本体时需要大量的人工开销和维护困难等问题,发挥Web资源的作用,提出了一种基于Web的无监督本体构建方法。该方法通过查询Web获取领域本体相关的资源,结合句法分析技术实现本体的学习,可以解决传统方法构建本体时语料库在规模上的限制,自适应Web知识的演化。以提出的方法为基础,构建了蛋白质交互关系本体。 (3)针对语义网和Linked Data的发展需求,实现网页的元数据标注和挖掘不同数据之间的关系,提出了一种基于本体的命名实体关系抽取方法。通过分析命名实体之间关系表达的语法结构和关系表达词,实现关系的抽取,实验采用生物文献公共语料库对算法进行了检验,抽取蛋白质相互作用关系,并取得了满意的效果。提出的算法对抽取的句子实行单遍遍历,实现适应Web规模的文本关系抽取时的计算效率问题。 (4)针对AJAX技术的广泛使用,而传统的爬虫无法获取、分析和处理这些内容,我们提出了一种基于领域本体的多记录型AJAX数据抽取模型。该模型可以有效的发现网贞中含有的动态AJAX内容,在领域本体的指导下,实现对数据的抽取和语义标注。实验以农产品供求和价格实体数据为例,验证了抽取方法的有效性。 (5)针对基于包装器或规则的方法在抽取单记录型HTML页而时,无法适应页而结构变化等不足,提出了一种采用统计学习方法实现的基于实体属性分类的单记录型Web页面信息抽取和标注模型。该模型对抽取内容的页面结构特征进行分析,通过构建相应的属性分类器识别页面中含有的实体属性,实现自适应页面结构的变化的实体抽取和标注。 (6)以基于本体的自适应Web信息抽取模型为基础,结合文中提出的信息抽取方法,实现了本体的自适应Web信息抽取平台。该平台包括两个子系统:一是面向农业领域的基于农业本体的自适应Web信息抽取子系统,应用于农业垂直搜索引擎-“中国搜农”和农业相关的数据挖掘应用;二是命名实体关系抽取原型子系统,为实现农业领域实用的关系抽取系统奠定了基础。
[Abstract]:......
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.1;TP393.09

【引证文献】

相关硕士学位论文 前1条

1 李艳;基于本体的毒品案件信息抽取研究[D];西北大学;2013年



本文编号:1493425

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1493425.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c516***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com