当前位置:主页 > 科技论文 > 软件论文 >

跨语言文本情感分类技术研究

发布时间:2018-08-06 08:19
【摘要】:文本情感分类旨在通过计算机技术,对文本中表达的主观情感倾向性进行判断,通过充分挖掘和分析文本生产者的兴趣倾向和情感态度,为决策者提供有价值的重要参考信息。由于国内外有效的高质量分析语料、情感词典等分布不均,使得跨语言文本情感分类研究应运而生。跨语言文本情感分类是利用源语言的有标注语料,辅助目标语言进行情感倾向性分析,其核心问题是解决如何将源语言和目标语言转换到同一语言空间中。根据国内外不同语言空间的转换手段不同,可将其分为三类:利用双语词典、平行语料库建立两种语言的对应关系以及利用机器翻译技术等三种研究方案。本文对上述三种方案分别作了相应尝试,主要贡献包括以下几个方面:(1)提出了一种在主动学习框架下的单语言文本情感分析方法SLAB。该方法中的采样策略是在不确定性采样策略的基础上,使用情感词典,在选择最不确定的样本的同时,也选择情感分数较大的样本,弥补了不确定性采样策略的不足,从而达到提高分类器准确率的目的。应用上述主动学习中提出的采样策略实现一种跨语言文本情感分类方法AL-CLSC。该方法首先利用机器翻译技术,将英文文本翻译为中文,然后通过主动学习方法,主动选择“好的”训练样本,通过循环训练,最终实现一个较好的中文文本情感分类器。进一步地,本文结合图结构模型对所提出的方法AL-CLSC进行改进,提出GAL-CLSC方法,以期解决机器翻译训练语料时,可能造成的信息丢失、重复及偏差等问题。实验结果显示,在不同的训练集中,该改进方法对分类器的准确率确有明显提高。(2)考虑到近年来神经网络在文本情感分类任务中的突出表现,本文提出两种分别结合RNN和CNN的深度典型相关性跨语言文本情感分类方法DCCA-RNN和DCCA-CNN。该两种方法是利用平行语料,在深度典型相关性的理论基础上,通过RNN和CNN学习两种语言空间的非线性关系,在映射的共享特征空间中利用典型性相关实现跨语言文本情感分类。
[Abstract]:The purpose of text emotion classification is to judge the tendency of subjective emotion expressed in text by computer technology, and to provide valuable reference information for decision makers by fully mining and analyzing the interest tendency and emotional attitude of text producers. Due to the uneven distribution of effective high quality analytical corpus and emotion dictionary at home and abroad, cross-language text emotion classification research emerges as the times require. Cross-language text affective classification is to use tagged corpus of source language to assist target language in emotional orientation analysis. Its core problem is how to transform source language and target language into the same language space. It can be divided into three categories according to the different methods of language space conversion at home and abroad: making use of bilingual dictionaries, establishing the corresponding relations between two languages in parallel corpus, and using machine translation technology. The main contributions are as follows: (1) A single language text affective analysis method, SLAB, is proposed under the framework of active learning. In this method, the sampling strategy is based on the uncertain sampling strategy, using the emotion dictionary to select the most uncertain samples, and at the same time to select the samples with high emotional score, which makes up for the lack of the uncertain sampling strategy. In order to improve the accuracy of the classifier. A cross-language text affective classification method, AL-CLSCC, is implemented using the sampling strategy proposed in the above active learning. The method first uses machine translation technology to translate the English text into Chinese, then through the active learning method, chooses the "good" training sample actively, and finally realizes a better Chinese text emotion classifier by cyclic training. Furthermore, this paper improves the proposed method AL-CLSC by using graph structure model, and proposes a GAL-CLSC method to solve the problems of information loss, repetition and deviation caused by machine translation training corpus. The experimental results show that the improved method does improve the accuracy of classifier in different training concentration. (2) considering the prominent performance of neural network in text emotion classification task in recent years, In this paper, we propose two cross-language affective classification methods, DCCA-RNN and DCCA-CNN, which combine with RNN and CNN, respectively. The two methods are based on the theory of depth canonical correlation, using parallel corpus to learn the nonlinear relationship between the two languages by RNN and CNN. In the shared feature space of mapping, canonical correlation is used to achieve cross-language text affective classification.
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 刘飒;章成志;;多语言文本表示研究综述[J];现代图书情报技术;2010年06期

2 张廷远;;河南省红色旅游景区语言文本现状的调查及思考[J];开封大学学报;2010年04期

3 高影繁;徐红姣;于薇;王惠临;;基于跨语言文本分类的多语资源组织方法研究[J];情报理论与实践;2011年10期

4 熊超;王明文;吴福英;吴世勇;沈阳;;基于潜在语义对偶空间的跨语言文本分类研究[J];广西师范大学学报(自然科学版);2010年01期

5 杜家利;于屏方;;自然语言文本语义接受度的在线系统评价研究[J];计算机工程与应用;2008年26期

6 章成志;王惠临;;多语言文本聚类研究综述[J];现代图书情报技术;2009年06期

7 史树敏;黄河燕;刘东升;;自然语言文本指代消解技术研究[J];计算机科学;2007年12期

8 彭静;罗伟;;一种从自然语言文本到本体模型的转换方法[J];电大理工;2011年02期

9 冯志伟;;汉字的极限熵[J];中文信息;1996年02期

10 陈启泉;吴扬扬;郑跃斌;;CTDPS查询语言文本与实现[J];华侨大学学报(自然科学版);1985年02期

相关会议论文 前4条

1 伊·达瓦;井佐原均;;蒙古语多文种-多语言文本-口语语料库的建设[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年

3 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

4 曹晖;于洪志;;OpenOffice的国际化与本地化机制[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

相关博士学位论文 前2条

1 邹博伟;面向自然语言文本的否定性与不确定性识别研究[D];苏州大学;2015年

2 朱泽德;网络双语语料挖掘关键技术研究[D];中国科学技术大学;2014年

相关硕士学位论文 前10条

1 石杰;中泰跨语言话题检测方法与技术研究[D];昆明理工大学;2015年

2 杨文敏;自然语言文本中不确定性信息的识别研究[D];河南工业大学;2015年

3 毕文霞;基于中间语义的跨语言文本分类模型研究[D];江西师范大学;2008年

4 刘越;跨语言文本分类的研究[D];北京理工大学;2011年

5 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年

6 彭哲;跨语言文本相关性检测技术研究[D];中南大学;2014年

7 万接喜;多语言文本聚类研究[D];南京大学;2013年

8 赵江;单语言与跨语言文本蕴含关系识别的研究[D];华东师范大学;2015年

9 何文垒;基于WordNet的中英文跨语言文本相似度研究[D];上海交通大学;2011年

10 甘灿;基于同义词替换的自然语言文本信息隐藏技术研究[D];湖南大学;2008年



本文编号:2167108

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2167108.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9a44f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com