基于文本的本体学习方法研究
文内图片:
图片说明:
a b c d e候选集中的概念773 382 833 921 836词典中已有的概念15 0 5 1 3获取的新概念78 62 58 60 37 Moldovan的方法实质上是一种有指导的学习,通过种子概念大大提高了概念获取的效率和领域相关性,而且种子概念能够作为概念分类的依据。例如对于(word,seed)类型的术语,可直接将其作为种子概念seed的下位词。如mortgage_ interest_ rate和interest_ rate,可以得出如下的关系: is2a (mortgage interest rate, interestrate);表示mortgage_ interest_ rate是interest rate的一种。2·2 种子概念在本体学习中的作用从Moldovan的方法可以看出,通过种子概念可以获取大量领域概念,并对概念进行分类,而概念和概念分类正是本体的核心,因此,可以将种子概念引入基于文本的本体学习方法,并有如下优点:1)可以事先选取种子概念,并围绕种子概念构建语料库,降低语料选取偏差对本体学习结果的影响。
文内图片:
图片说明:
本方法的目标是以文本语料作为输入,通过概念获取、概念分类以及关系获取,最终得到概念和概念的分类,以及概念之间的关系。本方法的基本原理见图2。图2基于文本的本体学习方法基本原理从图2可以看出,本文设计的基于文本的本体学习方法的基本步骤包括:文本预处理;输入种子概念;术语抽取;概念分类;关系抽取。3·2 文本预处理对语料库中的文本进行切词和词性标注等浅加工,可以利用一些现有的工具,如中国科学院的词法分析器IC2TCLAS等。3·3 输入种子概念用户可以根据领域知识和语料信息选取领域内比较重要的词作为种子概念。选定种子概念后,抽取出种子概念出现时的上下文。种子概念在语料库中出现多少次,就对应有多少条语料片断被抽出。例如用户输入的种子词为“电视机”,语料库中有句子:“反映了当前背投彩色电视机技术的最新发展水平”,则从中抽取出“电视机”的前后相邻的词
【作者单位】: 中国科学技术信息研究所 中国科学技术信息研究所
【分类号】:G420
【参考文献】
相关期刊论文 前2条
1 刘柏嵩,高济;面向知识网格的本体学习研究[J];计算机工程与应用;2005年20期
2 方卫东,袁华,刘卫红;基于Web挖掘的领域本体自动学习[J];清华大学学报(自然科学版);2005年S1期
【共引文献】
相关期刊论文 前10条
1 杨家宽;科技术语的规范和统一刍议[J];编辑学报;2001年01期
2 祝迎新;对应规范在法律术语翻译中的应用[J];北京理工大学学报(社会科学版);2004年S1期
3 张艳宏;刘保延;郭玉峰;何丽云;胡镜清;彭锦;;框架理论及其在中医学研究领域的应用探讨[J];中华中医药杂志;2008年08期
4 张晨;祁坤钰;;基于Penn Treebank英语标注集对《圣经》标注集的扩充研究[J];才智;2009年20期
5 夏晓云;;从两岸三地的翻译方式看英语术语汉译的本土化和规范化[J];长沙大学学报;2009年06期
6 张春泉;;王国维的术语学思想[J];长沙理工大学学报(社会科学版);2010年02期
7 张春泉;;《公孙龙子》的术语学思想——兼析《荀子》与《公孙龙子》术语学思想的“共相”[J];长沙理工大学学报(社会科学版);2011年04期
8 黄忠廉;;我国外语界术语学研究综述[J];辞书研究;2010年02期
9 靳伟;张月清;王芳;;基于本体的分类检索系统的设计与实现[J];河北农业大学学报;2010年02期
10 冯文杰;徐海静;黄建军;;从外文对应词看《DA/T1-2000档案工作基本术语》的修改[J];档案学通讯;2011年02期
相关会议论文 前10条
1 于伟昌;;汉译外来语言学术语标准化的必要性及其原则[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
2 陈晶;;汉俄科技术语词典中若干问题分析[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
3 张金忠;;对建构汉俄科技术语词典编纂理论的思考[A];中国辞书学会双语词典专业委员会第七届年会论文集[C];2007年
4 赵巍;;翻译学术语规范化的实践及效果反思[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
5 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
6 王开扬;;中国语文现代化理论再认识[A];语文现代化论丛(第七辑)[C];2006年
7 唐勇;黄利强;;规范纸包装结构术语的探讨[A];第十三届全国包装工程学术会议论文集[C];2010年
8 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
9 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 王强军;张普;;面向术语定义识别的语料库建设研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
相关博士学位论文 前10条
1 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
2 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
3 孙兴义;清代《诗经》阐释的诗学问题研究[D];云南大学;2011年
4 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
5 叶其松;术语学核心术语研究[D];黑龙江大学;2010年
6 郭建文;基于知识网格的e-维护知识资源管理技术研究[D];湖南大学;2010年
7 裘禾敏;《孙子兵法》英译研究[D];浙江大学;2011年
8 李芸;信息科学和信息技术术语概念体系研究[D];北京语言文化大学;2003年
9 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
10 赵静;司法判词的表达与实践——以古代判词为中心[D];复旦大学;2004年
相关硕士学位论文 前10条
1 吴丹;语言学术语汉译规范化研究[D];南昌航空大学;2010年
2 蔡宇虹;基于主题的元搜索引擎关键技术研究[D];哈尔滨工程大学;2010年
3 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
4 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
5 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
6 徐济成;面向农业领域的本体学习建模研究[D];安徽农业大学;2010年
7 林娜;高中生物学教学中学生专业术语表达能力培养的研究[D];华东师范大学;2010年
8 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
9 梁e,
本文编号:2512825
本文链接:https://www.wllwen.com/jiaoyulunwen/ktjx/2512825.html