当前位置:主页 > 社科论文 > 图书档案论文 >

生物多样性描述文本的语义标注算法研究

发布时间:2021-09-29 19:26
  物种描述是生物学和生态学的起点,两百多年来积累了海量文献。为了满足生物学和生态学领域对物种描述信息的自动语义处理和细粒度检索的需求,物种描述文本的结构化和半结构化成为该学科领域知识基础设施建设的重要任务。由于物种描述信息的绝大部分是以人类可读的形式存在的,因此,存在于文本中的科学事实需要人类智慧来分析和理解。为了使科学事实更便于利用,及生物和生态研究的重复利用,需要一个有效的机制,从主体文件中提取准确的科学事实,并把他们转换成计算机可以理解的形式。这个过程称为语义标注。然而,以手工方式根本无法完成海量文本的转换。因此,物种描述文本的自动语义标注成为亟待突破的领域。本研究以中文生物多样性描述文档为样本,进行语义标注算法研究。文章主要包括五个部分的内容:(1)准备研究样本。本研究采取随机抽样和分层抽样相结合的方式,从《中国植物志》中采集1000个文档作为数据集,并根据已有的schema对数据集进行XML标引。(2)语词切分。语词切分是语义标注的基础,直接影响标注结果。本研究通过对比不同中文分词软件的分词效果,选用易用性和准确性最好的ICTACLAS作为本研究的语词切分工具。(3)构建语义标... 

【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文的研究内容
    1.4 研究创新点
    1.5 本文的组织结构
2 语义标注系统的分析设计
    2.1 文本特征分析及XML
        2.1.1 XML概述
        2.1.2 文本特征分析
    2.2 语词切分
    2.3 实现原理
    2.4 系统框架
        2.4.1 框架简介
        2.4.2 文本输入
        2.4.3 学习和标注模块
        2.4.4 系统输出
3 学习和标注算法及实现
    3.1 朴素贝叶斯算法
        3.1.1 算法概述
        3.1.2 学习
        3.1.3 标注
    3.2 基础规则算法
        3.2.1 构建规则集
        3.2.2 标注
        3.2.3 学习
    3.3 优先规则算法
        3.3.1 构建规则集
        3.3.2 标注
        3.3.3 学习
4 实验及结果分析
    4.1 数据样本及测试集准备
        4.1.1 数据样本准备
        4.1.2 训练集的XML标引
        4.1.3 测试集的准备
    4.2 评价机制
    4.3 实验安排和结果分析
        4.3.1 一层标注
        4.3.2 二层标注
        4.3.3 归纳和梳理
5 总结与展望
    5.1 总结
    5.2 展望
参考文献
附录
致谢


【参考文献】:
期刊论文
[1]基于XML语言甲骨文语料库元数据抽取的研究[J]. 吴琴霞,高峰,刘永革.  计算机技术与发展. 2012(05)
[2]中文植物描述数据的一致性研究[J]. 段宇锋,黑珍珍,鞠菲.  情报科学. 2012(05)
[3]XQuery实现技术研究综述[J]. 李小青,廖湖声,张晓博.  计算机科学. 2012(03)
[4]基于XML的WEB数据抽取模型研究[J]. 黄淑芹.  通化师范学院学报. 2012(02)
[5]基于语义的林产品贸易文本信息结构化研究[J]. 陈钊,李嘉.  计算机工程. 2011(20)
[6]基于贝叶斯算法的森林成熟预测研究[J]. 李金铭,刘荣其,宁正元.  厦门大学学报(自然科学版). 2009(03)
[7]XML解析技术研究[J]. 冯进,丁博,史殿习,张瞩熹,许凯.  计算机工程与科学. 2009(02)
[8]农作物信息抽取系统的设计与实现[J]. 郑家恒,菅小艳.  计算机工程. 2006(07)
[9]从文本中获取植物知识方法的研究[J]. 罗贝,吴洁,曹存根,邵志清.  计算机科学. 2005(10)
[10]XML解析技术研究[J]. 朱前飞,高芒.  电脑开发与应用. 2004(11)

硕士论文
[1]基于本体的植物信息抽取与分析研究[D]. 石静.西北农林科技大学 2010
[2]面向领域文档的语义标注方法研究[D]. 沙丽华.吉林大学 2009
[3]SVM与基于转换的错误驱动学习方法相结合的生物实体识别[D]. 黄浩炜.国防科学技术大学 2008



本文编号:3414327

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3414327.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eccfd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com