跨语言文本情感分类技术研究
[Abstract]:The purpose of text emotion classification is to judge the tendency of subjective emotion expressed in text by computer technology, and to provide valuable reference information for decision makers by fully mining and analyzing the interest tendency and emotional attitude of text producers. Due to the uneven distribution of effective high quality analytical corpus and emotion dictionary at home and abroad, cross-language text emotion classification research emerges as the times require. Cross-language text affective classification is to use tagged corpus of source language to assist target language in emotional orientation analysis. Its core problem is how to transform source language and target language into the same language space. It can be divided into three categories according to the different methods of language space conversion at home and abroad: making use of bilingual dictionaries, establishing the corresponding relations between two languages in parallel corpus, and using machine translation technology. The main contributions are as follows: (1) A single language text affective analysis method, SLAB, is proposed under the framework of active learning. In this method, the sampling strategy is based on the uncertain sampling strategy, using the emotion dictionary to select the most uncertain samples, and at the same time to select the samples with high emotional score, which makes up for the lack of the uncertain sampling strategy. In order to improve the accuracy of the classifier. A cross-language text affective classification method, AL-CLSCC, is implemented using the sampling strategy proposed in the above active learning. The method first uses machine translation technology to translate the English text into Chinese, then through the active learning method, chooses the "good" training sample actively, and finally realizes a better Chinese text emotion classifier by cyclic training. Furthermore, this paper improves the proposed method AL-CLSC by using graph structure model, and proposes a GAL-CLSC method to solve the problems of information loss, repetition and deviation caused by machine translation training corpus. The experimental results show that the improved method does improve the accuracy of classifier in different training concentration. (2) considering the prominent performance of neural network in text emotion classification task in recent years, In this paper, we propose two cross-language affective classification methods, DCCA-RNN and DCCA-CNN, which combine with RNN and CNN, respectively. The two methods are based on the theory of depth canonical correlation, using parallel corpus to learn the nonlinear relationship between the two languages by RNN and CNN. In the shared feature space of mapping, canonical correlation is used to achieve cross-language text affective classification.
【学位授予单位】:华侨大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 刘飒;章成志;;多语言文本表示研究综述[J];现代图书情报技术;2010年06期
2 张廷远;;河南省红色旅游景区语言文本现状的调查及思考[J];开封大学学报;2010年04期
3 高影繁;徐红姣;于薇;王惠临;;基于跨语言文本分类的多语资源组织方法研究[J];情报理论与实践;2011年10期
4 熊超;王明文;吴福英;吴世勇;沈阳;;基于潜在语义对偶空间的跨语言文本分类研究[J];广西师范大学学报(自然科学版);2010年01期
5 杜家利;于屏方;;自然语言文本语义接受度的在线系统评价研究[J];计算机工程与应用;2008年26期
6 章成志;王惠临;;多语言文本聚类研究综述[J];现代图书情报技术;2009年06期
7 史树敏;黄河燕;刘东升;;自然语言文本指代消解技术研究[J];计算机科学;2007年12期
8 彭静;罗伟;;一种从自然语言文本到本体模型的转换方法[J];电大理工;2011年02期
9 冯志伟;;汉字的极限熵[J];中文信息;1996年02期
10 陈启泉;吴扬扬;郑跃斌;;CTDPS查询语言文本与实现[J];华侨大学学报(自然科学版);1985年02期
相关会议论文 前4条
1 伊·达瓦;井佐原均;;蒙古语多文种-多语言文本-口语语料库的建设[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
2 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
3 俞荣华;田增平;周傲英;;一种基于聚类的多语言文本相似记录检测算法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
4 曹晖;于洪志;;OpenOffice的国际化与本地化机制[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年
相关博士学位论文 前2条
1 邹博伟;面向自然语言文本的否定性与不确定性识别研究[D];苏州大学;2015年
2 朱泽德;网络双语语料挖掘关键技术研究[D];中国科学技术大学;2014年
相关硕士学位论文 前10条
1 石杰;中泰跨语言话题检测方法与技术研究[D];昆明理工大学;2015年
2 杨文敏;自然语言文本中不确定性信息的识别研究[D];河南工业大学;2015年
3 毕文霞;基于中间语义的跨语言文本分类模型研究[D];江西师范大学;2008年
4 刘越;跨语言文本分类的研究[D];北京理工大学;2011年
5 熊超;基于潜在语义对偶空间的跨语言文本分类研究[D];江西师范大学;2010年
6 彭哲;跨语言文本相关性检测技术研究[D];中南大学;2014年
7 万接喜;多语言文本聚类研究[D];南京大学;2013年
8 赵江;单语言与跨语言文本蕴含关系识别的研究[D];华东师范大学;2015年
9 何文垒;基于WordNet的中英文跨语言文本相似度研究[D];上海交通大学;2011年
10 甘灿;基于同义词替换的自然语言文本信息隐藏技术研究[D];湖南大学;2008年
,本文编号:2167108
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2167108.html