基于统计的汉语分词在机械产品设计中的应用
【图文】:
并且随着主观、客观世界的发展而变化。概念通过词汇表达,因此可以说概念是词汇的思想内容,而词汇则是概念形式。在语言理解中,要做到深刻地理解词汇的含义,就必须有一种能够达概念含义的知识表达方式,建立这种知识表示方式,则必须对概念的内延有充分的认识[38]。概念的内涵[36]是指反映在概念中的事物的特性或本质,包括概念所有的性质: 三角形有三条边;四边形有四个角。概念的外延是指反映在概念中的一一类类的事物,,包括概念的所有实例。一般地说,外延是关键属性所构成儿空间。例如:三角形的关键属性是三条边或者两条边与他们所夹的角。概念的内涵和外延之间的约束关系满足“内涵与外延的反比例关系定律”。律说明了概念的内涵和外延之间存在着反比例关系,即概念的内涵增多,缩小;反之,内涵减少,外延就扩大[35]。概念的外延也是一个概念,称为,抽象成度高的概念被称为父概念。概念的内涵与外延关系可以用图 2.1 来
12 14。例如,如果 为“变化多端”,则相应的1412S1 2 3C为“变化”。给定一个句子(或字串)就可以构造一个分词有向图:将候选词对应有向图中的顶点,这些候选词是利用改进的最大匹配法得到的最长词或次长词。候选词之间的接续关系对应有向图中的有向边。假设初始待切分字串为 ,其中为单个汉字,n 为字串长度首先建立有向图的起始节点,起始节点为 start,从句首(起始节点的结束位置 0)开始用最大匹配法切分出 ,不妨设然后在最后一个汉字后再加一个汉字,若C C 是一个词则记录下来,若不是则继续增加汉字直到长度达到首字的最长词的长度,再以 为首字重复上述过程。在有向图中加入末尾节点 end。由有向图 D=(V,A)的形式表达出来,V表示节点的集合,A 表示边的集合。(实线所构成的图)1 2 i n C C ...C ...C12w2C iC i 1,2,12 1 2w C C......n 比如例 1:“他说的确实在理”利用改进的最大匹配法可以得到以下几种结果:结果 1:他//说//的//确实//在理结果 2:他//说//的确//实在//理结果 3:他//说//的确//实//在理将上面组合用有向图的形式表现出来(实线连接),如图 3.1 所示
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TH122;TP391.1
【参考文献】
相关期刊论文 前10条
1 刘春辉;金顺福;刘国华;李颖;;基于优化最大匹配与统计结合的汉语分词方法[J];燕山大学学报;2009年02期
2 范继淹;徐志敏;;自然语言理解的理论和方法[J];国外语言学;1980年05期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 卫乃兴;基于语料库和语料库驱动的词语搭配研究[J];当代语言学;2002年02期
5 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
6 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
8 张长利,赫枫龄,左万利;一种基于后缀数组的无词典分词方法[J];吉林大学学报(理学版);2004年04期
9 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
10 吴建胜,战学刚,迟呈英;一种基于自动机的分词方法[J];计算机工程与应用;2005年08期
相关博士学位论文 前2条
1 杨梅;现代汉语合成词构词研究[D];南京师范大学;2006年
2 李沛刚;基于功构模式的产品概念设计理论和方法研究[D];山东大学;2010年
相关硕士学位论文 前3条
1 白慧;基于产品设计领域的名词短语语义分析[D];西安电子科技大学;2004年
2 张小林;机械产品设计领域的自然语言理解中名词性短语的语义分析[D];西安电子科技大学;2005年
3 刘阳;“隐性小词表+专业小词库”的自动分词技术研究[D];湖南师范大学;2007年
本文编号:2573526
本文链接:https://www.wllwen.com/kejilunwen/jixiegongcheng/2573526.html