当前位置:主页 > 科技论文 > 软件论文 >

基于词语相关度的微博新情感词自动识别

发布时间:2019-06-06 15:11
【摘要】:针对微博中新情感词的识别问题,提出了一种基于词语相关度的微博新情感词自动识别方法。首先,对于分词软件把一个新词错分成几个词的问题,利用组合思想将相邻词进行合并作为新词的候选词;其次,为了充分利用词语上下文的语义信息,采用神经网络训练语料获得候选新词的空间表示向量;最后,利用已有的情感词典作为指导,融合基于词表集合的关联度排序和最大关联度排序算法,在候选词上筛选,获得最终的情感新词。在COAE2014(第六届中文倾向性分析评测)任务3语料上,提出的融合算法与点互信息(PMI)、增强互信息(EMI)、多词表达距离(MED)、新词语概率(NWP)以及基于词向量的新词识别方法相比,准确率至少提高了22%,说明该方法自动识别微博新情感词效果优于其他五种方法。
[Abstract]:In order to solve the problem of recognition of new emotional words in Weibo, an automatic recognition method of Weibo new emotional words based on word correlation degree is proposed. First of all, for the problem that a new word is misdivided into several words by word segmentation software, the adjacent words are merged as candidates for new words by using the combination idea. Secondly, in order to make full use of the semantic information of word context, neural network is used to train the corpus to obtain the spatial representation vector of candidate new words. Finally, using the existing emotion dictionary as the guide, the correlation degree sorting and the maximum correlation degree sorting algorithm based on thesaurus set are combined to screen the candidate words and obtain the final emotional new words. Based on the task 3 corpus of COAE2014 (sixth Chinese tendency Analysis and Evaluation), the proposed fusion algorithm and point mutual information (PMI), enhance the distance (MED), of (EMI), multi-word expression with mutual information. Compared with the new word probability (NWP) and the new word recognition method based on word vector, the accuracy of the new word recognition method is improved by at least 22%, which shows that this method is better than the other five methods in automatically recognizing Weibo new emotional words.
【作者单位】: 山西大学计算机与信息技术学院;计算智能与中文信息处理教育部重点实验室(山西大学);
【基金】:国家863计划项目(2015AA015407) 国家自然科学基金资助项目(61175067,61272095,61432011,61573231,U1435212) 山西省科技基础条件平台计划项目(2015091001-0102) 山西省回国留学人员科研项目(2013-014)~~
【分类号】:TP391.1

【参考文献】

相关期刊论文 前1条

1 郑家恒,李文花;基于构词法的网络新词自动识别初探[J];山西大学学报(自然科学版);2002年02期

【共引文献】

相关期刊论文 前10条

1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期

2 林自芳;蒋秀凤;;基于改进位置成词概率的新词识别[J];福州大学学报(自然科学版);2011年01期

3 梁韬;张瑞;;基于词语条件信息量的新词发现[J];电子技术与软件工程;2014年11期

4 车飞;;近十余年来汉语网络新词语研究述略[J];重庆工商大学学报(社会科学版);2015年03期

5 李新福;赵杰;梁巍;;基于互信息的宋史语料库词表的提取[J];河北大学学报(自然科学版);2006年05期

6 黄东平,田芳;BBS信息过滤技术研究[J];长江大学学报(自科版);2004年01期

7 张海军;史树敏;朱朝勇;黄河燕;;中文新词识别技术综述[J];计算机科学;2010年03期

8 丁建立;慈祥;黄剑雄;;一种基于免疫遗传算法的网络新词识别方法[J];计算机科学;2011年01期

9 张海军;栾静;李勇;齐向伟;;基于统计学习框架的中文新词检测方法[J];计算机科学;2012年02期

10 廖豪;陈洁;谭建龙;;大规模语料中频繁模式增量发现算法[J];计算机工程;2011年23期

相关博士学位论文 前5条

1 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年

2 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年

3 孙凌云;面向产品概念设计的专利地图技术研究[D];浙江大学;2008年

4 龚才春;短文本语言计算的关键技术研究[D];中国科学院研究生院(计算技术研究所);2008年

5 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年

2 魏莎莎;一种中文未登录词识别及词典设计新方法[D];西南大学;2011年

3 丁溪源;基于大规模语料的中文新词抽取算法的设计与实现[D];南京理工大学;2011年

4 刘卫秋;专利信息检索系统的研究与实现[D];中南大学;2010年

5 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年

6 李婷婷;网络词语造词法及语用义研究[D];安徽大学;2011年

7 周春波;面向WI输入法的新词发现技术研究与实现[D];哈尔滨工业大学;2011年

8 陈浩;网络信息采集技术及中文未登录词算法研究[D];北京邮电大学;2012年

9 崔世起;中文新词检测与分析[D];中国科学院研究生院(计算技术研究所);2006年

10 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年

【相似文献】

相关期刊论文 前10条

1 许璐蕾;;网络评论中情感词的获取及极性判断方法比较[J];电脑与电信;2011年01期

2 肖健;徐建;朱姝;万缨;许亮;;基于翻译和语义方法的情感词挖掘研究[J];计算机工程与应用;2011年32期

3 赵鹏;赵志伟;卓景文;;一种情感词语义加权的句子倾向性识别方法[J];计算机工程与应用;2011年35期

4 代大明;李寿山;李培峰;朱巧明;;基于情绪词与情感词协作学习的情感分类方法研究[J];计算机科学;2012年12期

5 李勇敢;周学广;孙艳;张焕国;;结合依存关联分析和规则统计分析的情感词库构建方法[J];武汉大学学报(理学版);2013年05期

6 彭庆喜;钱铁云;;基于量化情感的网店垃圾评论检测[J];山东大学学报(理学版);2013年11期

7 杜嘉忠;徐健;刘颖;;网络商品评论的特征 情感词本体构建与情感分析方法研究[J];现代图书情报技术;2014年05期

8 张清亮;徐健;;网络情感词自动识别方法研究[J];现代图书情报技术;2011年10期

9 黄俊;田生伟;禹龙;冯冠军;;基于维吾尔语情感词的句子情感分析[J];计算机工程;2012年09期

10 孙劲光;马志芳;孟祥福;;基于情感词属性和云模型的文本情感分类方法[J];计算机工程;2013年12期

相关会议论文 前5条

1 陈奇哲;刘全升;姚天f ;;汉语意见型语句主题与情感关系抽取的研究[A];第五届全国信息检索学术会议论文集[C];2009年

2 孙慧;关毅;董喜双;;中文情感词倾向消歧[A];第六届全国信息检索学术会议论文集[C];2010年

3 段秀婷;何婷婷;宋乐;;基于PMI-IR算法的Blog情感分类研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年

4 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

5 王枞;涂序彦;刘嘉;;注意-情绪协调的个性化信息推荐模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

相关博士学位论文 前7条

1 董喜双;基于免疫多词主体自治学习的情感分析研究[D];哈尔滨工业大学;2013年

2 寇广增;基于意见挖掘通用框架的情感极性强度模糊性研究[D];武汉大学;2010年

3 杨玉珍;基于Web评论信息的倾向性分析关键技术研究[D];山东师范大学;2014年

4 黄胜;Web评论文本的细粒度意见挖掘技术研究[D];北京理工大学;2014年

5 施寒潇;细粒度情感分析研究[D];苏州大学;2013年

6 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年

7 李芳;面向中文Web评论的观点挖掘关键技术研究[D];华中师范大学;2013年

相关硕士学位论文 前10条

1 孙博;关于情感词的意义用法[D];辽宁大学;2012年

2 王银;中文微博情感分析方法研究[D];广东技术师范学院;2015年

3 崔连超;互联网评论文本情感分析研究[D];山东大学;2015年

4 杜雪峰;藏文句子倾向性分析研究[D];中央民族大学;2015年

5 孙建超;微博舆情挖掘技术的研究与应用[D];电子科技大学;2015年

6 张圣声;基于微博平台的产品评论情感分类研究[D];广东外语外贸大学;2015年

7 何天翔;基于情感词网的短文本情感分类方法研究[D];西南科技大学;2015年

8 丁星;基于文本倾向性分析技术的微博监控系统[D];江苏科技大学;2015年

9 李茜;博客意见检索关键问题研究[D];北京理工大学;2015年

10 李瑞静;汉语情感词模糊语义的量化分析及应用研究[D];北京理工大学;2015年



本文编号:2494395

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2494395.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户30e9c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com