当前位置:主页 > 社科论文 > 图书档案论文 >

基于字角色标注的中文专利术语识别研究

发布时间:2020-07-15 02:35
【摘要】:专利文献在科技、制造、经济和法律等领域有着广泛的应用,深入挖掘专利文献的服务方式对上述领域的发展和进步具有重要意义。专利术语是在某一领域专利文献中具有明确指向性的语词,它能够充分、完整地反映专利文献的主要描述对象,对专利术语进行挖掘和处理能够为深度的专利文献服务提供支持。在当前术语识别的研究领域,主要分为基于统计的方法、基于语言规则匹配的方法以及统计与语言规则相结合的方法。条件随机场(CRFs)作为一种成熟度较高的学习算法,因其算法优势,在当前术语识别领域有着广泛的应用。在某一文本语料中,它能够同时考察对象自身的横向特征与该对象所处上下文的纵向特征。本文采用条件随机场(CRFs)机器学习算法,对中文钢铁冶金领域的专利文献题名进行字特征的学习,并利用训练生成的标注模型对测试语料进行角色的自动标注,进而完成术语识别操作。本文的核心内容与主要工作涉及以下几个方面:(1)训练语料的规范化处理。由于当前中文钢铁冶金领域没有合适的专利术语表,在进行角色标注时所出现的“术语嵌套”及“长术语”现象会对角色的正确标注造成障碍。为此,笔者在研究中首先对标注过的来源文本进行术语抽取,经过进一步的筛选和组织,最终构建了该领域专利文献的术语集合。该术语集合不仅是对来源文本中领域术语的整体描述,更是在进行角色标注过程中的可靠参照。(2)引入新的特征项。结合来源文本语料的主题特征与内容结构特征,笔者在已有研究成果的基础上引入了“化工元素特征”与“字频特征”这两个新的特征项。其中,前者对来源文本中的化工元素字与非化工元素字进行了特征区分,后者则对术语组成字与非术语组成字进行了特征区分。从实验结果来看,引入这两种新的特征项能够有效促进角色标注模型的整体性能。(3)构建了角色标注模型。在设置特征项的基础上,本文构建了5种不同的特征模板用于考察不同特征项对于角色标注模型的影响力。本文采用最新版本的CRF++0.58作为算法运行平台,基于条件随机场(CRFs)学习算法,结合所构建的训练语料,分别以5种特征模板为参考构建了标注模型。之后,采用经典的评测指标(准确率、召回率、F值)与附加指标(字角色标注召回率)对比分析了5种标注模型的标注结果。(4)总结了不同特征项的影响力以及特征项设置的经验性规律。根据对5种模型的评测结果,本文尝试从来源文本的语义属性出发,分析不同特征项对领域术语识别的影响力。本文在最后总结了特征项设置的一般原则,指明了进一步改进研究的方向。
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:G306;G254

【相似文献】

相关期刊论文 前10条

1 刘峥;马军;;一种基于图划分和图像搜索引擎的图像标注改善算法[J];计算机研究与发展;2011年07期

2 卢英;刘金义;高辉;路宏;;地图中点状要素标注算法设计[J];计算机与数字工程;2006年05期

3 朱松豪;梁志伟;;基于半监督学习模型的自动图片标注研究[J];南京邮电大学学报(自然科学版);2010年06期

4 李劲;张华;吴浩雄;向军;辜希武;;基于社会标注质量的文本分类模型框架[J];计算机应用;2012年05期

5 袁莹;邵健;吴飞;庄越挺;;结合组稀疏效应和多核学习的图像标注[J];软件学报;2012年09期

6 褚颖娜;廖敏;宋继华;;一种基于统计的分词标注一体化方法[J];计算机系统应用;2009年12期

7 虎晓红;李炳军;苏晓珂;;基于叙词查询的图像标注方法[J];郑州大学学报(理学版);2011年02期

8 杨沐昀,李生,赵铁军;汉英双语标注集的研究与实现[J];情报学报;2000年05期

9 舒燕;吕学强;;搜索引擎日志短语标注规范[J];中文信息学报;2013年02期

10 邱泽宇;方全;桑基韬;徐常胜;;基于区域上下文感知的图像标注[J];计算机学报;2014年06期

相关会议论文 前5条

1 朱松豪;刘允才;;基于语义相似性的自动图片标注研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年

2 邹煜;;新闻播音语言韵律标注初探[A];第二届全国学生计算语言学研讨会论文集[C];2004年

3 姜文斌;王志洋;刘群;吕雅娟;;基于马尔可夫间隔标注的中文分词算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

4 满正行;高璐;;藏语单语料库分析及标注探讨[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 徐琳宏;林鸿飞;;文本情感语料库的构建和分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

相关重要报纸文章 前1条

1 中国社会科学院民族学与人类学研究所 燕海雄;中国民族语言语法标注研究取得新进展[N];中国社会科学报;2014年

相关博士学位论文 前6条

1 芮晓光;真实世界环境下的自动图像标注方法研究[D];中国科学技术大学;2010年

2 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年

3 汪萌;基于机器学习方法的视频标注研究[D];中国科学技术大学;2008年

4 钟岑岑;基于上下文的音视频标注研究[D];北京交通大学;2014年

5 燕杨;基于条件随机场的医学文本与图像标注模型构建及应用研究[D];吉林大学;2015年

6 包胜华;基于Web的实体信息搜索与挖掘研究[D];上海交通大学;2008年

相关硕士学位论文 前10条

1 韩杰冰;基于字角色标注的中文专利术语识别研究[D];南京大学;2015年

2 何斯琼;基于稀疏回归模型的图像标注研究[D];浙江大学;2010年

3 王上;地理信息系统中地图标注问题的研究与实现[D];吉林大学;2004年

4 周宁;融合标注词相关性信息的图像语义标注研究[D];复旦大学;2009年

5 夏静;基于社会标注的主题分类及排序优化方法研究[D];华中科技大学;2011年

6 贾贝贝;基于文本的未标注图像检索算法研究[D];南京大学;2012年

7 赵勇;基于社会标注的主题爬虫研究[D];华中科技大学;2009年

8 郑皓;社会化互联网的内容和结构挖掘[D];上海交通大学;2009年

9 曹月;融合视觉与语义双模态信息的自动图像标注[D];北京理工大学;2010年

10 王前程;自动图像标注中基于局部泛化误差模型的特征权重研究[D];华南理工大学;2011年



本文编号:2755848

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2755848.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户93f71***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com