当前位置:主页 > 科技论文 > 机械论文 >

基于统计的汉语分词在机械产品设计中的应用

发布时间:2020-01-27 05:00
【摘要】:汉语分词是自然语言理解中的一个主要组成部分,同时也是文本挖掘,机器翻译,信息检索的基础。由于汉语分词问题本身的复杂性,故而寻求准确有效的汉语分词方法成为自然语言理解的主要研究内容之一。本文设计了基于统计和语义分析相结合的分词模型,将其应用在产品的设计过程中。通过该模型将用户以自然语言形式描述的需求进行切分,将切分结果经过自然语言理解系统的其余模块的处理转化成为计算机能够识别的概念设计要求。 本文分析了现有汉语分词的方法及其主要存在的问题,研究了基于语料库的分词方法及其关键技术,结合现有的分词方法,提出将机械分词、语料库统计分词和语义分析相结合的分词模型,并将此分词模型嵌入到某领域汉语理解系统之中。机械分词阶段,利用改进的最大匹配法,以求尽量得出所有的切分形式并用有向图的形式表现出来,并且找出分词中的歧义字段,对其进行消除歧义。语料库统计阶段,先将歧义字段中的各种常见搭配组合利用语料库统计方法统计,统计其共现度和搭配情况,并把搭配情况反馈到统计词典中,实现分词系统和整个自然语言理解系统的自我完善和良性互动,同时对合成词(“2+2”,“2+3”和“3+2”模式)的可信度进行统计;然后采用语义分析中的动名词结构,结合概念从属的知识表示方法,对分词结果进一步消除歧义,提高了分词系统的准确率,降低分词系统的复杂度。最后结合实际将该分词模型应用于产品设计的用户需求分析领域。
【图文】:

外延关,概念


并且随着主观、客观世界的发展而变化。概念通过词汇表达,因此可以说概念是词汇的思想内容,而词汇则是概念形式。在语言理解中,要做到深刻地理解词汇的含义,就必须有一种能够达概念含义的知识表达方式,建立这种知识表示方式,则必须对概念的内延有充分的认识[38]。概念的内涵[36]是指反映在概念中的事物的特性或本质,包括概念所有的性质: 三角形有三条边;四边形有四个角。概念的外延是指反映在概念中的一一类类的事物,,包括概念的所有实例。一般地说,外延是关键属性所构成儿空间。例如:三角形的关键属性是三条边或者两条边与他们所夹的角。概念的内涵和外延之间的约束关系满足“内涵与外延的反比例关系定律”。律说明了概念的内涵和外延之间存在着反比例关系,即概念的内涵增多,缩小;反之,内涵减少,外延就扩大[35]。概念的外延也是一个概念,称为,抽象成度高的概念被称为父概念。概念的内涵与外延关系可以用图 2.1 来

有向图


12 14。例如,如果 为“变化多端”,则相应的1412S1 2 3C为“变化”。给定一个句子(或字串)就可以构造一个分词有向图:将候选词对应有向图中的顶点,这些候选词是利用改进的最大匹配法得到的最长词或次长词。候选词之间的接续关系对应有向图中的有向边。假设初始待切分字串为 ,其中为单个汉字,n 为字串长度首先建立有向图的起始节点,起始节点为 start,从句首(起始节点的结束位置 0)开始用最大匹配法切分出 ,不妨设然后在最后一个汉字后再加一个汉字,若C C 是一个词则记录下来,若不是则继续增加汉字直到长度达到首字的最长词的长度,再以 为首字重复上述过程。在有向图中加入末尾节点 end。由有向图 D=(V,A)的形式表达出来,V表示节点的集合,A 表示边的集合。(实线所构成的图)1 2 i n C C ...C ...C12w2C iC i 1,2,12 1 2w C C......n 比如例 1:“他说的确实在理”利用改进的最大匹配法可以得到以下几种结果:结果 1:他//说//的//确实//在理结果 2:他//说//的确//实在//理结果 3:他//说//的确//实//在理将上面组合用有向图的形式表现出来(实线连接),如图 3.1 所示
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TH122;TP391.1

【参考文献】

相关期刊论文 前10条

1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期

2 范继淹;徐志敏;;自然语言理解的理论和方法[J];国外语言学;1980年05期

3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

4 卫乃兴;基于语料库和语料库驱动的词语搭配研究[J];当代语言学;2002年02期

5 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期

6 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期

7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期

8 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期

9 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期

10 吴建胜,战学刚,迟呈英;一种基于自动机的分词方法[J];计算机工程与应用;2005年08期

相关博士学位论文 前2条

1 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年

2 李沛刚;基于功构模式的产品概念设计理论和方法研究[D];山东大学;2010年

相关硕士学位论文 前3条

1 白慧;基于产品设计领域的名词短语语义分析[D];西安电子科技大学;2004年

2 张小林;机械产品设计领域的自然语言理解中名词性短语的语义分析[D];西安电子科技大学;2005年

3 刘阳;“隐性小词表+专业小词库”的自动分词技术研究[D];湖南师范大学;2007年



本文编号:2573526

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jixiegongcheng/2573526.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b7991***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com