基于机器学习的生物多样性中文文档的信息抽取研究
发布时间:2020-05-30 14:23
【摘要】:信息抽取(Information Extraction)的核心在于识别和提取文档中用户感兴趣的数据,并以更为结构化、语义更为清晰的形式表示,为用户查询数据、应用程序利用数据提供便利。近年来国内外已有多位研究者面向各个领域开展信息抽取研究并获得一定成效。 介于日益严峻的环境问题对生态和生物研究提出了更高、更紧迫的要求。本文选用生物多样性作为研究领域。物种描述是生物学和生态学的起点,相关文档应为首要进行信息组织和利用的对象。然而分类学描述通常采用自然语言,内容缺乏一致性,难以得到有效地利用。为完善生物学和生态学研究的支持基础,已有多个机构及研究者试图传统格式的分类描述文本转化成新的数字格式(XML或RDF),试图为基于语义的信息组织和利用奠定基础。其中cui等设计开发的MARTT系统实现了良好的标注效果,其自行构建的先导词算法,在标注准确率和召回率上都优于其它两种常用机器学习方法,即支持向量机和朴素贝叶斯。 本文通过深入研究MARTT的系统原理,和自建的机器学习算法,选用中国植物志中的物种分类学描述为数据集,设计实现了针对生物多样性中文文档的语义标注系统。文章主要包含了五个部分的内容: (1)数据集的获取与XML标引,本文设计了植物分类学描述的XML标引结构,并将收集的PDF格式的描述文档进行格式转换和XML标引。 (2)中文分词软件的选用,本文通过对比不同中文分词软件的分词效果,选用最合适研究中语词切分的相关软件。 (3)标注算法的构建。本文设计实现了适用于中文植物分类学文档的机器学习算法,用于实现语义标注。 (4)对比研究平台的搭建。本文采用LIBSVM软件包,运用支持向量机算法对文档进行了分类测试。 (5)标注效果的评估。本文将数据集合区分为训练集合和测试集合,运用从训练集合获知的标注规则对测试集合进行标注。通过标注准确率对标注结果进行评估。评估结果显示,系统基本完成了对描述文档主要结构的标注,对个别元素的标注结果还有待改善,且总体优于SVM文本分类系统所产生的标注结果。 本文将基于机器学习的语义标注应用于植物分类学文档是十分有意义的。首先选用《中国植物志》作为数据集来源具有较强的现实意义和潜在的应用价值,其次语义标注为基于语义的信息组织与利用研究的基础和核心内容,语义标注工作完成后,能够在此基础上开展XML结构化检索、联合搜索等信息创新用法。最后,该项工作对生物学和生态学研究起到一定的支持作用,对于其他领域相关研究的开展也具有极其现实的借鉴价值。 本文初步地对系统的几个重要部分进行了介绍并提出了解决问题的方法,并对各部分进行了实现。研究还需在数据集合的丰富、标引工作的简化、标引结构的优化、系统的通用性实现等方面做更多的工作。
【图文】:
(z)系统原理学习模块可以从训练实例中快速获取层级结构,该结构将用于之后的标注。为了展示这个过程,以图2.3为例展开陈述。首先,学习层级设有一个根节点“deseription”。当X人4L文本被读入至根节点时,根节点在“Dese找ption”中发现5个元素(即“plant一habit一and一life一style”、“leaves”、“nowers”“加its”、和“SeedS”),从而创建5个子节点,将每个元素的内容分配至相应的节点中,例如新创建的子节点“nowers”获取有关花的描述文本。每个子节点会继续读取它所获得的内容,如果需要,创建新的子节点以容纳新的元素。例如,子节点“flowers”为“braet”和“eal林”元素创建它的两个子节点(“苞片,,和“花警”)。这个过程将持续进行直至每个分支都到达终端元素。, 9eui
图2.3训练集合实例学习模块对XML文本进行处理后,一个简单的层级结构就产生了,,并且这个层级结构完全对应于文本描述的XML结构。(图2.4)当读入一个新的训练实例时,学习层级结构对自身进行扩展以容纳之前没有出现的新元素。假设第二个习11练实例的“description”元素含有“stems”元素。当“deseription”节点通过
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:G350
本文编号:2688264
【图文】:
(z)系统原理学习模块可以从训练实例中快速获取层级结构,该结构将用于之后的标注。为了展示这个过程,以图2.3为例展开陈述。首先,学习层级设有一个根节点“deseription”。当X人4L文本被读入至根节点时,根节点在“Dese找ption”中发现5个元素(即“plant一habit一and一life一style”、“leaves”、“nowers”“加its”、和“SeedS”),从而创建5个子节点,将每个元素的内容分配至相应的节点中,例如新创建的子节点“nowers”获取有关花的描述文本。每个子节点会继续读取它所获得的内容,如果需要,创建新的子节点以容纳新的元素。例如,子节点“flowers”为“braet”和“eal林”元素创建它的两个子节点(“苞片,,和“花警”)。这个过程将持续进行直至每个分支都到达终端元素。, 9eui
图2.3训练集合实例学习模块对XML文本进行处理后,一个简单的层级结构就产生了,,并且这个层级结构完全对应于文本描述的XML结构。(图2.4)当读入一个新的训练实例时,学习层级结构对自身进行扩展以容纳之前没有出现的新元素。假设第二个习11练实例的“description”元素含有“stems”元素。当“deseription”节点通过
【学位授予单位】:华东师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:G350
【参考文献】
相关期刊论文 前10条
1 柳回春,马树元,吴平东,杨峰,曾兴生,毕路拯;UK心理测试自动分析系统的手写体数字识别[J];北京理工大学学报;2002年05期
2 高学,金连文,尹俊勋,黄建成;一种基于支持向量机的手写汉字识别方法[J];电子学报;2002年05期
3 张曙红,张金隆,陈德军;面向电子商务的客户关系管理数据挖掘模型研究[J];工业工程与管理;2004年04期
4 凌旭峰,杨杰,叶晨洲;基于支撑向量机的人脸识别技术[J];红外与激光工程;2001年05期
5 刘学军,陈松灿,彭宏京;基于支持向量机的计算机键盘用户身份验真[J];计算机研究与发展;2002年09期
6 张晓东;;支持向量机在肺癌生存期预测中的应用分析[J];计算机工程与应用;2007年18期
7 忻栋,杨莹春,吴朝晖;基于SVM-HMM混合模型的说话人确认[J];计算机辅助设计与图形学学报;2002年11期
8 王宏漫,欧宗瑛;采用PCA/ICA特征和SVM分类的人脸识别[J];计算机辅助设计与图形学学报;2003年04期
9 马勇,丁晓青;基于层次型支持向量机的人脸检测[J];清华大学学报(自然科学版);2003年01期
10 叶航军,白雪生,徐光yP;基于支持向量机的人脸姿态判定[J];清华大学学报(自然科学版);2003年01期
相关硕士学位论文 前1条
1 黄浩炜;SVM与基于转换的错误驱动学习方法相结合的生物实体识别[D];国防科学技术大学;2008年
本文编号:2688264
本文链接:https://www.wllwen.com/tushudanganlunwen/2688264.html
教材专著