当前位置:主页 > 科技论文 > 软件论文 >

基于多文本特征融合的中文微博的立场检测

发布时间:2019-08-07 15:23
【摘要】:微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。
【图文】:

基于多文本特征融合的中文微博的立场检测,奠雨洁;金琴;吴慧敏;《计算机工程与应用》;2017年21期


2017,53(21)取了字向量特征。基于上述特征,使用随机森林、SVM和GBDT进行立场分类并使用特征分类器的后期融合来预测最终立常3系统说明如图1所示,本文提出的基于监督学习的立场检测方法,共分为4个阶段:数据预处理、特征抽娶立场分类和后期融合。3.1数据预处理数据预处理包括清洗语料、汉字简繁体转化、分词和去除停用词。在原始的微博中有很多新闻标题,表情符号和URL链接,这些信息会增加微博正文的噪音,因此,在语料清洗阶段,使用正则表达式去除这些信息。例如:原始微博:【禁摩限电:国家权力“内卷化”之弊-FT中文网】从3月21日开始,深圳交警实施“禁摩限电”专项集中整治活动,在街头巷尾对摩的、电动车围追堵截。根据其发布的消息,截止3月3……(分享自@FT中文网)http://t.cn/Rq4oQ6N清洗后微博:从3月21日开始,深圳交警实施“禁摩限电”专项集中整治活动,在街头巷尾对摩的、电动车围追堵截。根据其发布的消息,截止3月3……如果一条微博在清洗过后不包含任何内容,那么认为这条微博是没有立场的。语料清洗过程中去除的文本和对应的示例如表1所示。语料清洗结束后,使用开源工具zhtools(https://github.com/skydark/nstools/blob/master/zhtools/)进行汉字简繁体转换,再使用结巴(jieba)(https://github.com/fxsjy/jieba)对微博进行分词。3.2特征抽取基于有监督的机器学习的方法,通过选取大量有意义的特征来完成分类任务。在文本分类中,,通常选取的特征是基于词频的特征,例如n-gram等。本文抽取了两类特征:基于词频统计的特征和文本深度特征。基于词频统计的特征包括:基于Unigram的词袋特征、基于同义词典的词袋特征、基于主题词和立场类别标签共现关系的特征。文本深度特征是来自word
【作者单位】: 中国人民大学信息学院;
【基金】:国家重点研发计划项目(No.2016YFB1001202)
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 郭飞飞;王小华;谌志群;王荣波;;基于回应消息的中文微博情感分类方法[J];杭州电子科技大学学报;2013年06期

2 李赫元;俞晓明;刘悦;程学旗;程工;;中文微博客的垃圾用户检测[J];中文信息学报;2014年03期

3 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期

4 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期

5 王银;吴新玲;;中文微博情感分析方法研究[J];广东技术师范学院学报;2014年03期

6 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期

7 陈炯;张永奎;;一种基于词聚类的文本特征描述方法[J];计算机系统应用;2011年02期

8 陈振亚;陈光辉;徐建民;;一种基于本体的文本特征选取方法[J];广西师范大学学报(自然科学版);2011年01期

9 平源;周亚建;张海滨;王枞;杨义先;;强化类别贡献的文本特征权重方案[J];北京工业大学学报;2012年09期

10 杨棉绒;;基于文本特征的信息隐藏策略[J];新乡学院学报(自然科学版);2011年04期

相关会议论文 前6条

1 朱浩然;梁循;马跃峰;纪阳;李启东;马超;;金融领域中文微博情感分析[A];第八届(2013)中国管理学年会——金融分会场论文集[C];2013年

2 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[A];第五届全国青年计算语言学研讨会论文集[C];2010年

3 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年

4 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年

5 代劲;何中市;胡峰;;一种高性能的文本特征自动提取算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

6 颜燕;;新浪微博上的天文科普[A];科普惠民 责任与担当——中国科普理论与实践探索——第二十届全国科普理论研讨会论文集[C];2013年

相关博士学位论文 前1条

1 钱涛;中文微博文本规范化方法及关键技术研究[D];武汉大学;2016年

相关硕士学位论文 前10条

1 张彬;中文微博情感倾向性分析研究[D];华南理工大学;2015年

2 田乐;中文微博中的问题检测技术研究[D];复旦大学;2014年

3 张俊;中文微博情感分析[D];西北民族大学;2015年

4 金镇晟;基于改进的TF-IDF算法的中文微博话题检测与研究[D];北京理工大学;2015年

5 夏梦南;中文微博情感倾向性分析与情感要素抽取方法[D];北京工业大学;2015年

6 邹梦宇;基于多方法融合的中文微博情感倾向性分析研究[D];北方工业大学;2016年

7 邢纪哲;基于中文微博的情感分类技术研究[D];东北大学;2014年

8 李翠;小学语文微课设计开发研究[D];贵州师范大学;2015年

9 梁礼欣;基于条件随机场的中文微博情感分析研究[D];广东工业大学;2016年

10 黄晓琴;基于核心素养的小学语文微课程开发研究[D];西南大学;2016年



本文编号:2524031

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2524031.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6fa35***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com