基于规则和统计的组合类新词识别技术研究及其在机械产品设计中的应用
本文关键词:基于规则和统计的组合类新词识别技术研究及其在机械产品设计中的应用
更多相关文章: 自然语言理解 概念从属理论 中文新词识别 产品设计
【摘要】:本文研究自然语言理解中的组合类中文新词识别,通过识别新词,,使分词结果更加合理准确,结合自然语言理解系统的后续处理,最终通过对以自然语言形式表达的用户需求进行理解和分析,将分析结果转化成概念设计要求或设计参数,为后续设计提供支持。 本文首先分析了自然语言理解中几种常用的知识表示方法,阐述了概念从属理论在知识内涵和外延描述中的作用,以及自然语言理解研究中的统计模型,以此作为分析组合类中文新词识别的理论基础。其次,以语言学知识为理论依据,分析组合类中文新词的构词模式,明确了分类标准,将组合类中文新词分为三类:“单字串类型”、“后缀串类型”和“其他类型”;并通过字词禁用表、词性搭配禁用表、词缀表对候选词串进行筛选;同时,借助概念从属树模型,分析新词构成元素间的概念关联关系;然后收集候选词串的上下文信息,通过统计语言模型,分析组合元素的内部紧密程度和上下文依赖程度,采用内部词概率、互信息和左右信息熵作为统计方法识别新词的标准;总体上采用规则和统计相结合的方法进行组合类中文新词的识别。最后设计了组合类中文新词识别的整体流程,并通过机械设计实例,将组合类中文新词识别的分析模型应用在产品设计领域自然语言理解中。
【关键词】:自然语言理解 概念从属理论 中文新词识别 产品设计
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:H136;TH122
【目录】:
- 摘要3-4
- Abstract4-5
- 目录5-7
- 第一章 绪论7-17
- 1.1 引言7-8
- 1.2 自然语言理解概述8-12
- 1.2.1 自然语言理解简介8-9
- 1.2.2 自然语言理解的发展现状9-11
- 1.2.3 自然语言理解研究的主要方法11-12
- 1.3 中文新词识别概述12-14
- 1.4 本文的主要工作14-17
- 第二章 知识表示及统计语言模型17-27
- 2.1 常用的知识表示法17-20
- 2.1.1 格语法17
- 2.1.2 谓词逻辑17-18
- 2.1.3 框架表示法18-19
- 2.1.4 语义网络19
- 2.1.5 概念层次网络理论19-20
- 2.2 概念从属理论20-22
- 2.2.1 概念的内涵和外延20-21
- 2.2.2 概念从属树21-22
- 2.3 自然语言理解中的统计语言模型22-25
- 2.4 本章小结25-27
- 第三章 组合类中文新词识别的分析研究27-45
- 3.1 新词的分类27-28
- 3.2 组合类中文新词特征分析28-33
- 3.2.1 组合类中文新词的构成模式28-31
- 3.2.2 组合类中文新词识别与中文分词的关系31-33
- 3.3 组合类中文新词识别的规则方法33-38
- 3.3.1 分词碎片33
- 3.3.2 禁用词表和词性搭配规则33-35
- 3.3.3 组合类中文新词的抽象概念关系35-38
- 3.4 组合类中文新词识别的统计方法38-43
- 3.4.1 候选词串上下文信息收集38-39
- 3.4.2 内部词概率39-40
- 3.4.3 后缀串词缀信息40-41
- 3.4.4 互信息41
- 3.4.5 左右信息熵41-43
- 3.5 规则方法和统计方法的结合43-44
- 3.6 本章小结44-45
- 第四章 组合类中文新词识别的实现45-61
- 4.1 自然语言理解的整体框架45-47
- 4.2 组合类中文新词识别模板设计47-51
- 4.3 组合类中文新词识别的实现流程51-58
- 4.4 统计数据分析58-59
- 4.5 组合类新词识别实例59-60
- 4.6 本章小结60-61
- 第五章 组合类中文新词识别在凸轮机构设计中的应用61-67
- 5.1 机械设计领域自然语言理解的系统组成61-62
- 5.2 凸轮机构系统62
- 5.3 基于自然语言理解的凸轮机构需求分析62-63
- 5.4 凸轮机构需求分析原型系统知识库的建立63-64
- 5.5 凸轮机构需求分析中的组合类中文新词识别64-66
- 5.6 本章小结66-67
- 总结和展望67-69
- 致谢69-71
- 参考文献71-74
【参考文献】
中国期刊全文数据库 前10条
1 李钝;曹元大;万月亮;;Internet中的新词识别[J];北京邮电大学学报;2008年01期
2 傅国宏;Chinese Word Boundary Ambiguity and Unknown Word Resolution Using Unsupervised Methods[J];High Technology Letters;2000年02期
3 郭艳华,周昌乐;自然语言理解研究综述[J];杭州电子工业学院学报;2000年01期
4 冯敏萱;方芳;陈小荷;;带后缀三字词的自动识别[J];计算机工程与应用;2006年19期
5 贺敏;龚才春;张华平;程学旗;;一种基于大规模语料的新词识别方法[J];计算机工程与应用;2007年21期
6 李晓光;王大玲;于戈;;基于统计语言模型的信息检索[J];计算机科学;2005年08期
7 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期
8 贾自艳,史忠植;基于概率统计技术和规则方法的新词发现[J];计算机工程;2004年20期
9 秦浩伟,步丰林;一个中文新词识别特征的研究[J];计算机工程;2004年S1期
10 吴中兴,赵克,胡钢伟,许威;概念从属树——一种新的树模型设计[J];计算机应用;2004年S1期
中国硕士学位论文全文数据库 前3条
1 程培涛;机械产品设计领域自然语言理解中的概念从属树研究与实现[D];西安电子科技大学;2005年
2 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
3 徐亮;中文新词识别研究[D];大连理工大学;2009年
本文编号:781674
本文链接:https://www.wllwen.com/kejilunwen/jixiegongcheng/781674.html