当前位置:主页 > 社科论文 > 图书档案论文 >

面向中文专利文献的并列结构的识别和应用

发布时间:2020-06-25 12:33
【摘要】:专利文献是一种非常重要的技术资料,专利文献的文本格式比较固定,用语较为规范,除含有一些高频词和未登录词之外,还存在着大量的并列结构。对于中文专利文献中并列结构的识别能够提高专利文献句法分析的性能,同时,识别结果可以应用于专利文献的机器翻译和信息抽取等领域。以往对于并列结构的研究大都是一些理论探讨和对非专利文献中的并列结构进行的识别。本文利用中文专利语料库,对中文专利文献中的并列结构进行了分析与识别。 首先,分析了中文专利文献中有标记并列结构的语言学特征。统计分析了有标记并列结构的内部特征和外部特征。其中,内部特征主要考察了并列标记、并列结构内部分析和词性分布等。外部特征主要统计了可能的边界特征词,并分析了有标记并列结构在中文专利文献中依存句法特征。 其次,对中文专利文献中的有标记并列结构进行识别。在中文专利文献统计分析结果的基础上,对中文专利文献中的单层并列结构和嵌套并列结构进行识别。识别过程中运用了统计分析规律作为识别规则,对识别结果进行了规则前处理和后处理,规则处理后提高了识别的准确率。 最后,选取单层并列结构较优的识别结果,根据并列结构的依存特征,对中文专利文献的依存分析结果进行了规则后处理,规则处理后提高了识别的准确率。
【学位授予单位】:沈阳航空航天大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:G353.1;TP391.1
【图文】:

句法分析,并列结构


和统计机器学习模型识别出中文专利文献中的并列结构,并根据识别专利文献中并列结构对依存句法分析的影响。文涉及的专利文献的并列结构的识别是运用计算机自动识别并标注范围。如识别下面句子中的并列结构(用记号“BL【】”来标注文本中的入:这里,特定的 R-ACH 正在使用扇区 A1 的位置 1 上的功率控制 2 上的功率控制位和扇区 C2 的位置 4 上的功率控制位。出:这里,特定的 R-ACH 正在使用 BL【扇区 A1 的位置 1 上的功率 的位置 2 上的功率控制位和扇区 C2 的位置 4 上的功率控制位】。本文研究的意义、并列结构的识别结果有利于提高句法分析的性能。由于并列结构一联或依存,目前广泛使用的统计句法分析器很难处理,分析效果较和图 1.1(b)分别为用专利语料训练的句法分析器分析结果和正确的

并列结构,动宾关系


的阈值设为 0.7,也就是说当 p 大于 0.7 时,我们将 w 作为文专利文献中,可以作为有标记并列结构右边界词的词如表,在非专利文献中可以作为边界词的也(0.51)、中(0.51)表中。献中有标记并列结构的依存关系分布存树库的基础上,统计分析了中文专利文献中有标记并列结分析结果可以看出,专利文献中有标记并列结构主要出现在关系(VOB)、定中关系(ATT)、介宾关系(POB)、“的”BV),它们占据了整个并列结构的 66.47%。具体分析如下:(VOB)成分,与核心词之间的关系标注为动宾关系,一般位于核心关系的句子如图 2.1 所示(其中,由方框框起来的是并列结构系)[42]:

【参考文献】

相关期刊论文 前10条

1 吴云芳;;并列成分中心语语义相似性考察[J];当代语言学;2005年04期

2 孙广路;王晓龙;刘秉权;关毅;;基于词聚类特征的统计中文组块分析模型[J];电子学报;2008年12期

3 郑略省;吕学强;刘坤;林进;;汉语并列关系的识别研究[J];北京大学学报(自然科学版);2013年01期

4 任楚威;;英文专利文献的汉译[J];湖南师范大学自然科学学报;2008年03期

5 李素建,刘群,白硕;统计和规则相结合的汉语组块分析[J];计算机研究与发展;2002年04期

6 周雅倩,郭以昆,黄萱菁,吴立德;基于最大熵方法的中英文基本名词短语识别[J];计算机研究与发展;2003年03期

7 徐中一;胡谦;刘磊;;基于CRF的中文组块分析[J];吉林大学学报(理学版);2007年03期

8 别致;周俊生;陈家骏;;基于SVM-Adaboost的中文组块分析[J];计算机工程与应用;2008年21期

9 李珩;杨峰;朱靖波;姚天顺;;基于增益的隐马尔科夫模型的文本组块分析[J];计算机科学;2004年02期

10 李素建,刘群,杨志峰;基于最大熵模型的组块分析[J];计算机学报;2003年12期

相关博士学位论文 前1条

1 孙广路;基于统计学习的中文组块分析技术研究[D];哈尔滨工业大学;2008年



本文编号:2729136

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2729136.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8fa9f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com