当前位置:主页 > 科技论文 > 搜索引擎论文 >

农业垂直搜索引擎语义化若干问题的研究与实现

发布时间:2020-10-31 18:52
   大量的农业技术、供求信息、市场信息、政策法规和农业新闻等信息资源分布在互联网上农业网站中。然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对农业信息资源进行整合和利用。针对这个问题,在国家自然基金(“农业复杂自适应搜索模型研究”)的支持下,面向农业的搜索模型—搜农应运而生。然而该模型还是基于文本关键字匹配的数据处理方式,不能充分理解信息包含的语义信息,在准确率和召回率这两大信息检索系统性能指标上还有很大提升空间。 针对这个问题,本文根据网络农业资源的特点,在农业领域本体构建的基础上,将本体作为领域知识库应用于垂直搜索引擎的数据预处理、数据索引和用户检索三个环节,将本体的语义添加到搜索引擎的数据处理过程中。 相对于原有模型,数据预处理环节的语义改进主要包括:信息的空间属性的抽取、信息地理名称的实体解析和价格动态变化的关系抽取;索引环节的语义改进主要包括:文档的语义标注和语义扩展;用户检索环节的改进包括:在语义标注环境下普通用户的检索策略和基于用户模型的语义扩展方法。 论文的主要研究内容总结如下: 1.针对网络上农业资源空间属性表达的多样性、显性表达的缺失等问题,本文提出一种借助领域本体和WEB搜索引擎构建知识库抽取并判别信息的空间属性的方法,将语义添加到信息的空间属性抽取过程中。 2.针对农业地理名称实体解析的问题,本文提出一种将空间属性抽取算法和Markov逻辑网络进行结合进行地理名称实体解析的方法,将空间属性抽取中的语义信息带入到地理名称的实体解析过程中。 3.针对从大量非结构化的文本中抽取价格变化关系的问题,本文设计了一种基于条件随机场进行关系抽取,并用领域本体对抽取的结果进行语义上的统计合并的农产品价格变化关系抽取方法。 4.针对农业领域资源的特点,本文提出一种结合领域本体和句法分析相结合的核心词汇抽取方法,并依据本体对文档主题进行推断,与本体中的概念进行语义关联;另一方面对文档中抽取的核心词汇基于领域本体进行语义扩张。 5.在用户检索环节,针对索引中文档和本体概念的语义关联状况,设计了普通用户双索引检索的机制;对注册用户基于本体构建用户模型,并基于用户模型对查询进行语义扩展。 6.最后,本文给出了面向农业的垂直搜索引擎的整体的语义化设计。
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2012
【中图分类】:TP391.3
【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
    1.2 研究综述
        1.2.1 搜索引擎
        1.2.2 面向农业的搜索引擎
        1.2.3 语义搜索引擎
        1.2.4 本体的基本概念
        1.2.5 面向农业的领域本体
        1.2.6 信息抽取
        1.2.7 实体解析
        1.2.8 语义标注
    1.3 研究内容和意义
    1.4 本文的章节安排
第2章 基于本体和网络语料库的空间属性抽取算法
    2.1 引言
    2.2 一种实体属性抽取算法
    2.3 信息空间属性抽取算法及其改进
        2.3.1 网络上农业信息包含的地理名称的特点
        2.3.2 空间信息标注的总体流程
        2.3.3 NGAO显性地理属性抽取
        2.3.4 NGDA隐性地理属性抽取
        2.3.5 NGCS卡方检验空间属性抽取算法
    2.4 实验结果及其分析
    2.5 本章小结
第3章 基于属性抽取和MARKOV逻辑网络的名称解析
    3.1 引言
    3.2 MARKOV逻辑网络
    3.3 名称解析
        3.3.1 地理名称解析算法
            3.3.1.1 地理名称实体解析的问题描述
            3.3.1.2 基于统计的地理名称实体解析方法(ST NER)
AE NER)'>            3.3.1.3 基于Markov逻辑网和名称属性抽取结合的解析算法(MLNAE NER)
    3.4 实验及结果分析
        3.4.1 实验语料
        3.4.2 评价指标
        3.4.3 地理名称解析的实验
AE NER算法实验'>            3.4.3.1 MLNAE NER算法实验
AE NER和其他相关算法实验比较'>            3.4.3.2 MLNAE NER和其他相关算法实验比较
AE NER算法存在的问题'>            3.4.3.3 MLNAE NER算法存在的问题
    3.5 本章小结
第4章 基于条件随机场的价格动态关系抽取
    4.1 信息抽取和关系抽取
    4.2 条件随机场
    4.3 问题描述
    4.4 系统设计
    4.5 实验和结果分析
        4.5.1 数据集及评价标准
        4.5.2 实验结果
    4.6 本章小结
第5章 垂直搜索索引和检索的语义化
    5.1 索引数据的语义标注和语义扩张
        5.1.1 引言
        5.1.2 待索引农业数据的特点
        5.1.3 语义标注
            5.1.3.1 核心词汇抽取
            5.1.3.2 概念映射和主题推理
            5.1.3.3 主题约减
        5.1.4 基于本体的核心词汇语义扩展
    5.2 检索和个性化设计
        5.2.1 向量空间模型
        5.2.2 普通用户的检索策略
        5.2.3 基于用户模型的查询扩展
            5.2.3.1 基于用户模型查询扩展的整体架构
            5.2.3.2 用户兴趣数据库
            5.2.3.3 用户模型
            5.2.3.4 本节讨论
    5.3 本章小结
第6章 面向农业的垂直搜索引擎的语义化设计和实现
    6.1 设计思想
    6.2 系统结构
    6.3 索引层
    6.4 检索和信息展示层
        6.4.1 文本检索模块
        6.4.2 可视化搜索模块
    6.5 本章小结
第7章 总结与展望
    7.1 本文主要工作和创新点
    7.2 未来研究工作展望
参考文献
致谢
在读期间发表的学术论文与取得的其他研究成果

【参考文献】

相关期刊论文 前10条

1 高红;黄德根;杨元生;;汉语自动分词中中文地名识别[J];大连理工大学学报;2006年04期

2 于鹏;刘大有;欧阳丹彤;;基于遗传与粒子群算法的Markov逻辑网学习研究[J];电子学报;2006年S1期

3 张玉芳;黄涛;艾东梅;熊忠阳;唐蓉君;;Markov逻辑网在重复数据删除中的应用[J];重庆大学学报;2010年08期

4 尹奇韡;李善平;;语义Web语言DAML+OIL及其应用初探[J];计算机科学;2003年01期

5 李文;陈叶旺;彭鑫;赵文耘;;一种有效的基于本体的词语-概念映射方法[J];计算机科学;2010年10期

6 刘娇蛟,龚丽,李建华;基于本体实现对网页文本的自动主题分类[J];计算机工程;2003年11期

7 胡鹤,刘大有,王生生;Web本体语言OWL[J];计算机工程;2004年12期

8 黄德根;孙迎红;;中文地名的自动识别[J];计算机工程;2006年03期

9 杜小勇,李曼,王大治;语义Web与本体研究综述[J];计算机应用;2004年10期

10 张颖;王文杰;史忠植;;基于本体的文本分类方法[J];计算机仿真;2009年05期


相关博士学位论文 前3条

1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年

2 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年

3 黄河;农业复杂自适应搜索模型研究及实现[D];中国科学技术大学;2010年


相关硕士学位论文 前3条

1 陈鹏飞;基于个性化本体的语义搜索引擎技术的研究与设计[D];河北工业大学;2011年

2 王雨果;基于本体的个性化信息检索系统研究[D];电子科技大学;2008年

3 沙丽华;面向领域文档的语义标注方法研究[D];吉林大学;2009年



本文编号:2864362

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2864362.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ab2a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com