基于字词对齐的中文字词向量表示方法

发布时间:2018-04-13 17:19

  本文选题:自然语言处理 + 表示学习 ; 参考:《中国科学技术大学》2017年硕士论文


【摘要】:词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以表示学习为基础的词语表示旨在用稠密的低维向量来表示词语的语义信息,其中分布式语义表示是表示学习中最常见的词语表示方法。这种方法得到的词向量在很多自然语言处理问题上取得了成功。借鉴于英文的词向量表示方法,一些学者对中文词向量的表示进行了研究。最近的一些研究表明,中文词语内部的汉字也具有丰富的语义信息,基于字词联合学习的模型在一些中文自然语言处理任务上取得了一定的成功。然而现有的处理方法均没有考虑词语内部汉字对词语语义贡献的差异性,使得学习的词向量在一些任务上的表现不尽如人意。本文基于此问题,提出了一种计算组成词语的汉字对词语的语义贡献的方法,这种方法利用了其他语言的语义信息。我们使用了这种基于相似度的方法来联合学习字词向量。并且通过实验,这种方法对汉字消歧和识别非语义可组合词也有很好的效果。本文具体工作如下:(1)本文根据中文的特点,提出了一种基于字词相似度的字词向量学习模型。该方法在词语训练过程中,计算了不同内部汉字对词语的语义贡献,更好地对中文的词语进行建模,使汉字对学习到的词向量起到很好的平滑效果,并且通过字的关联使词的上下文信息更加丰富。(2)与传统的基于上下文聚类的汉字消歧方法不同,本文创新地融入了英文这种富信息语言的优势,提出了一种新的方法来对汉字进行消歧。这种方法利用了外部资源,使用了类似K-means的方式进行了分类。(3)并非所有的词都是语义可组合的。例如命名实体,舶来词等等。本文在现有工作的基础上,提出了一种辨别非语义可组合词的方法。(4)在实验部分,通过在多个不同数据集上,不同维度的比较,验证了本文提出算法的有效性。
[Abstract]:Words are the smallest semantic unit of text, and many natural language processing tasks involve the representation of words.The most common way to express words is to express heat alone.However, this method has the problem of sparse, and can not capture the semantic relationship between words.The representation of words based on representation learning aims to represent the semantic information of words with dense low-dimensional vectors, in which distributed semantic representation is the most common representation of words in learning.The word vectors obtained by this method are successful in many natural language processing problems.Some scholars have studied the representation of Chinese word vectors for reference to English word vector representation.Some recent studies have shown that Chinese characters have abundant semantic information, and the model based on word combination learning has been successful in some Chinese natural language processing tasks.However, the existing processing methods do not take into account the differences of the Chinese characters' contribution to the semantic meaning of the words, which makes the performance of the learning word vector unsatisfactory in some tasks.Based on this problem, this paper proposes a method to calculate the semantic contribution of Chinese characters to words, which utilizes the semantic information of other languages.We use this similarity-based approach to learn word vectors jointly.The experiment shows that this method has good effect on Chinese character disambiguation and recognition of non-semantic combinable words.The main work of this paper is as follows: (1) according to the characteristics of Chinese, this paper proposes a word vector learning model based on word similarity.In the process of word training, this method calculates the semantic contribution of different internal Chinese characters to the words, and models the Chinese words better, so that the Chinese characters have a good smoothing effect on the word vectors learned.Moreover, the contextual information of words is enriched by the association of words, which is different from the traditional Chinese character disambiguation method based on contextual clustering. This paper innovatively integrates the advantages of English, which is a rich information language, in this paper.A new method is proposed to disambiguate Chinese characters.Not all words are semantically combinable.For example, naming entities, foreign words and so on.Based on the existing work, this paper proposes a method of identifying non-semantically combinable words. In the experimental part, the effectiveness of the proposed algorithm is verified by comparing different dimensions on many different datasets.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前5条

1 赵文;高速中英文翻译字典卡[J];中国对外贸易;1994年01期

2 史颖;《CRS-汉语拼字方案》再续[J];信息技术与标准化;2005年09期

3 金山;;雇个责任编辑[J];软件;2000年08期

4 林春;王嘉梅;张建营;樊津瑜;;彝文网页敏感信息监测系统的研究[J];中国新通信;2013年24期

5 王坤,董少明;计算机录入技术专用周的安排[J];机械职业教育;1996年10期

相关硕士学位论文 前4条

1 王丽婷;两种文言文字词演示型学习资源学习效果比较研究[D];华中师范大学;2015年

2 高芳菲;迁移理论在初中文言文字词教学中的应用研究[D];闽南师范大学;2015年

3 徐健;基于字词对齐的中文字词向量表示方法[D];中国科学技术大学;2017年

4 杨璐;高中文言文字词教学存在的问题及应对策略[D];信阳师范学院;2017年



本文编号:1745454

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1745454.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8f03***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com