基于叙词表和文献数据库的农业领域本体构建方法研究
发布时间:2021-07-24 19:50
我国是一个农业大国,农业的发展对于国民经济的增长具有举足轻重的作用,而农业领域的科学研究则与农业发展有着直接而密切的联系。目前,农业领域的科研人员所面临的一个困扰就是自己被信息的海洋所湮没,无法方便地获得自己需要的信息,根本原因在于传统的知识组织方式固有的弊端。而本体的构建可以在很大程度上解决这个问题。本文在研究了国内外大量相关文献的基础上,提出了以《农业科学叙词表》和农业领域文献为基础进行农业领域本体半自动构建的思路。该思想的提出基于以下两点:(1)《农表》是现已有的知识体系,是农业领域专家集体智慧的结晶,它提供了最丰富、最权威的术语集合,从中进行领域概念和术语的提取,可以保证本体知识体系的完整性和规范性。(2)农业领域文献作为本体概念的另一个来源,则是《农表》最为有力的补充,它存储量大,动态性好,可以为本体的构建提供更为广泛的术语范围和更复杂的概念关系。文章对于农业文献的篇章结构进行了研究,并据此提出了农业领域本体的整体框架,确定了主要的类、属性及类间关系,横向上保证了本体框架的科学性和合理性;对于《农表》编制结构、收录的术语范围、术语间关系进行了深入剖析,挑取出了本体的主要研究类...
【文章来源】:中国农业科学院北京市
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
语义网层次结构
图 3-4 PDF 文档向 WORD 格式的转换Figure 3-4 The Conversion of PDF to WORD3.3.2 中文分词(1)分词方法英文中的词与词之间都有空格这一分隔符,因此,英文基本不用分词就可以直接进入到检索技术、短语切分、语义分析等高一层的技术领域。中文与英文不同,对于中文来说,词是承载语义的最小单位。单个汉字一般很难单独表达一定的含义,需要几个字连在一起去表达一个完整的意思,又因为中文的词之间没有自然分隔符,这就需要采用一定的技术手段把中文的词进行切分,使其成为有意义的词,把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词的过程就是中文分词。中文分词属于自然语言处理技术的范畴,处理过程需要依赖分词算法才能进行。现有的分词方法分为以下三种:1)基于字符串匹配的分词法该方法又叫机械分词法,一般以分词词典为依据,按照一定的策略将文档中的待切分汉字串与词典中的词条进行逐一匹配,若在词典中找到一个最长的结果,则匹配成功。常用的几种机械分词方法如下:正向最大匹配法(Forward Maximum Matching,FMM)、逆向最大匹配法(Reverse
该方法的缺陷在于,会抽取出一些共现频度很高、但又不是词的字组,此外词的识别精度差,时空开销比较大。实际应用中,统计分词系统一般将串匹配和串频统计结合到一起进行分词。用一部常用行串匹配分词,同时利用串频统计方法识别新词,这样既结合了匹配分词切词速度快的特用了无词典分词方法能够识别生词、自动消除歧义的优势。)分词工具 ICTCLAS2011基于多层隐马模型的汉语语法分析系统 ICTCLAS(Institute of Computing Technology,Chical Analysis System)是由中国科学院计算技术研究所在多年研究基础上研制成功的。它一个开放源码的中文分词系统,其主要功能包括中文分词、词性标注、命名实体识别、识别,同时支持用户词典、繁体中文,支持 UNICODE、GBK、UTF-8、UTF-7 等多种。ICTCLAS 还提供完整的动态连接库组件和相应的概率词典,开发者可以完全忽略汉析,直接在自己的系统中调用 ICTCLAS。2011 年 4 月,ICTCLAS 的发明者张华平博士ICTCLAS2011 最新 u0404 版本,该版本的主要更新有:全面支持 UTF-8,BIG5 与 GBK式;修正了部分内核 Bug;提供了 Win7 下的支持库,提供 Linux64 位与 32 位的支持库
【参考文献】:
期刊论文
[1]基于领域本体的政务信息检索系统[J]. 于静,吴国全,卢燚. 计算机应用. 2010(06)
[2]电子信息产品领域的本体构建与应用[J]. 蒋国瑞,袁通. 计算机应用研究. 2010(05)
[3]文本从属语义关系提取及本体构建研究[J]. 殷凤霞. 安康学院学报. 2010(02)
[4]医学文献领域本体的构建及其关键技术分析[J]. 李萍萍,李书宾. 预防医学情报杂志. 2010(03)
[5]基于政务主题词表的政府信息本体构建及应用[J]. 卢燚,张波. 计算机工程与设计. 2010(03)
[6]从文本自动构建OWL本体的研究[J]. 蔡荣彦. 信息与电脑(理论版). 2010(02)
[7]中文本体构建及可视化研究[J]. 王晓盈,王晓璇,刘鹏. 计算机技术与发展. 2010(02)
[8]中文核心领域本体构建的一种改进方法[J]. 谌贻荣,陆勤,李文捷,崔高颖. 中文信息学报. 2010(01)
[9]构建本体时获取概念方法研究[J]. 李光达,常春. 情报科学. 2009(05)
[10]新时期数字图书馆的本体自动构建[J]. 顾波. 黑龙江史志. 2009(07)
博士论文
[1]领域本体的构建方法与应用研究[D]. 李景.中国农业科学院 2009
[2]基于叙词表的中医古籍文献领域本体建模方法研究[D]. 谷建军.中国中医科学院 2006
[3]Ontology在农业信息管理中的构建和转化[D]. 常春.中国农业科学院 2004
硕士论文
[1]基于统计的多文档关键短语和文摘抽取研究[D]. 张永刚.苏州大学 2010
[2]中文自动分词系统的研究与实现[D]. 周程远.华东师范大学 2010
[3]科技论文关键词抽取技术的研究[D]. 严春风.苏州大学 2009
[4]基于领域本体的用户查询词扩展方法的研究[D]. 张冰.西华大学 2009
[5]基于用户词典的搜索个性化研究[D]. 罗颖.重庆大学 2009
[6]基于机器学习的中文文本分类方法研究[D]. 刘依璐.西安电子科技大学 2009
[7]基于领域本体的语义信息检索及相关技术研究[D]. 刘爱军.西北大学 2008
[8]本体知识库的构建与进化方法研究[D]. 王璀民.中国海洋大学 2008
[9]农业科学叙词表向农业本体转化系统的研究与实现[D]. 鲜国建.中国农业科学院 2008
[10]基于中文文本的本体构建方法研究[D]. 刘威.哈尔滨工程大学 2008
本文编号:3301315
【文章来源】:中国农业科学院北京市
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
语义网层次结构
图 3-4 PDF 文档向 WORD 格式的转换Figure 3-4 The Conversion of PDF to WORD3.3.2 中文分词(1)分词方法英文中的词与词之间都有空格这一分隔符,因此,英文基本不用分词就可以直接进入到检索技术、短语切分、语义分析等高一层的技术领域。中文与英文不同,对于中文来说,词是承载语义的最小单位。单个汉字一般很难单独表达一定的含义,需要几个字连在一起去表达一个完整的意思,又因为中文的词之间没有自然分隔符,这就需要采用一定的技术手段把中文的词进行切分,使其成为有意义的词,把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词的过程就是中文分词。中文分词属于自然语言处理技术的范畴,处理过程需要依赖分词算法才能进行。现有的分词方法分为以下三种:1)基于字符串匹配的分词法该方法又叫机械分词法,一般以分词词典为依据,按照一定的策略将文档中的待切分汉字串与词典中的词条进行逐一匹配,若在词典中找到一个最长的结果,则匹配成功。常用的几种机械分词方法如下:正向最大匹配法(Forward Maximum Matching,FMM)、逆向最大匹配法(Reverse
该方法的缺陷在于,会抽取出一些共现频度很高、但又不是词的字组,此外词的识别精度差,时空开销比较大。实际应用中,统计分词系统一般将串匹配和串频统计结合到一起进行分词。用一部常用行串匹配分词,同时利用串频统计方法识别新词,这样既结合了匹配分词切词速度快的特用了无词典分词方法能够识别生词、自动消除歧义的优势。)分词工具 ICTCLAS2011基于多层隐马模型的汉语语法分析系统 ICTCLAS(Institute of Computing Technology,Chical Analysis System)是由中国科学院计算技术研究所在多年研究基础上研制成功的。它一个开放源码的中文分词系统,其主要功能包括中文分词、词性标注、命名实体识别、识别,同时支持用户词典、繁体中文,支持 UNICODE、GBK、UTF-8、UTF-7 等多种。ICTCLAS 还提供完整的动态连接库组件和相应的概率词典,开发者可以完全忽略汉析,直接在自己的系统中调用 ICTCLAS。2011 年 4 月,ICTCLAS 的发明者张华平博士ICTCLAS2011 最新 u0404 版本,该版本的主要更新有:全面支持 UTF-8,BIG5 与 GBK式;修正了部分内核 Bug;提供了 Win7 下的支持库,提供 Linux64 位与 32 位的支持库
【参考文献】:
期刊论文
[1]基于领域本体的政务信息检索系统[J]. 于静,吴国全,卢燚. 计算机应用. 2010(06)
[2]电子信息产品领域的本体构建与应用[J]. 蒋国瑞,袁通. 计算机应用研究. 2010(05)
[3]文本从属语义关系提取及本体构建研究[J]. 殷凤霞. 安康学院学报. 2010(02)
[4]医学文献领域本体的构建及其关键技术分析[J]. 李萍萍,李书宾. 预防医学情报杂志. 2010(03)
[5]基于政务主题词表的政府信息本体构建及应用[J]. 卢燚,张波. 计算机工程与设计. 2010(03)
[6]从文本自动构建OWL本体的研究[J]. 蔡荣彦. 信息与电脑(理论版). 2010(02)
[7]中文本体构建及可视化研究[J]. 王晓盈,王晓璇,刘鹏. 计算机技术与发展. 2010(02)
[8]中文核心领域本体构建的一种改进方法[J]. 谌贻荣,陆勤,李文捷,崔高颖. 中文信息学报. 2010(01)
[9]构建本体时获取概念方法研究[J]. 李光达,常春. 情报科学. 2009(05)
[10]新时期数字图书馆的本体自动构建[J]. 顾波. 黑龙江史志. 2009(07)
博士论文
[1]领域本体的构建方法与应用研究[D]. 李景.中国农业科学院 2009
[2]基于叙词表的中医古籍文献领域本体建模方法研究[D]. 谷建军.中国中医科学院 2006
[3]Ontology在农业信息管理中的构建和转化[D]. 常春.中国农业科学院 2004
硕士论文
[1]基于统计的多文档关键短语和文摘抽取研究[D]. 张永刚.苏州大学 2010
[2]中文自动分词系统的研究与实现[D]. 周程远.华东师范大学 2010
[3]科技论文关键词抽取技术的研究[D]. 严春风.苏州大学 2009
[4]基于领域本体的用户查询词扩展方法的研究[D]. 张冰.西华大学 2009
[5]基于用户词典的搜索个性化研究[D]. 罗颖.重庆大学 2009
[6]基于机器学习的中文文本分类方法研究[D]. 刘依璐.西安电子科技大学 2009
[7]基于领域本体的语义信息检索及相关技术研究[D]. 刘爱军.西北大学 2008
[8]本体知识库的构建与进化方法研究[D]. 王璀民.中国海洋大学 2008
[9]农业科学叙词表向农业本体转化系统的研究与实现[D]. 鲜国建.中国农业科学院 2008
[10]基于中文文本的本体构建方法研究[D]. 刘威.哈尔滨工程大学 2008
本文编号:3301315
本文链接:https://www.wllwen.com/tushudanganlunwen/3301315.html