基于多文本特征融合的中文微博的立场检测
【图文】:
2017,53(21)取了字向量特征。基于上述特征,使用随机森林、SVM和GBDT进行立场分类并使用特征分类器的后期融合来预测最终立常3系统说明如图1所示,本文提出的基于监督学习的立场检测方法,共分为4个阶段:数据预处理、特征抽娶立场分类和后期融合。3.1数据预处理数据预处理包括清洗语料、汉字简繁体转化、分词和去除停用词。在原始的微博中有很多新闻标题,表情符号和URL链接,这些信息会增加微博正文的噪音,因此,在语料清洗阶段,使用正则表达式去除这些信息。例如:原始微博:【禁摩限电:国家权力“内卷化”之弊-FT中文网】从3月21日开始,深圳交警实施“禁摩限电”专项集中整治活动,在街头巷尾对摩的、电动车围追堵截。根据其发布的消息,截止3月3……(分享自@FT中文网)http://t.cn/Rq4oQ6N清洗后微博:从3月21日开始,深圳交警实施“禁摩限电”专项集中整治活动,在街头巷尾对摩的、电动车围追堵截。根据其发布的消息,截止3月3……如果一条微博在清洗过后不包含任何内容,那么认为这条微博是没有立场的。语料清洗过程中去除的文本和对应的示例如表1所示。语料清洗结束后,使用开源工具zhtools(https://github.com/skydark/nstools/blob/master/zhtools/)进行汉字简繁体转换,再使用结巴(jieba)(https://github.com/fxsjy/jieba)对微博进行分词。3.2特征抽取基于有监督的机器学习的方法,通过选取大量有意义的特征来完成分类任务。在文本分类中,,通常选取的特征是基于词频的特征,例如n-gram等。本文抽取了两类特征:基于词频统计的特征和文本深度特征。基于词频统计的特征包括:基于Unigram的词袋特征、基于同义词典的词袋特征、基于主题词和立场类别标签共现关系的特征。文本深度特征是来自word
【作者单位】: 中国人民大学信息学院;
【基金】:国家重点研发计划项目(No.2016YFB1001202)
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 郭飞飞;王小华;谌志群;王荣波;;基于回应消息的中文微博情感分类方法[J];杭州电子科技大学学报;2013年06期
2 李赫元;俞晓明;刘悦;程学旗;程工;;中文微博客的垃圾用户检测[J];中文信息学报;2014年03期
3 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期
4 陈文亮;朱靖波;朱慕华;姚天顺;;基于领域词典的文本特征表示[J];计算机研究与发展;2005年12期
5 王银;吴新玲;;中文微博情感分析方法研究[J];广东技术师范学院学报;2014年03期
6 唐晓文;基于本体论的文本特征提取[J];电脑与信息技术;2005年01期
7 陈炯;张永奎;;一种基于词聚类的文本特征描述方法[J];计算机系统应用;2011年02期
8 陈振亚;陈光辉;徐建民;;一种基于本体的文本特征选取方法[J];广西师范大学学报(自然科学版);2011年01期
9 平源;周亚建;张海滨;王枞;杨义先;;强化类别贡献的文本特征权重方案[J];北京工业大学学报;2012年09期
10 杨棉绒;;基于文本特征的信息隐藏策略[J];新乡学院学报(自然科学版);2011年04期
相关会议论文 前6条
1 朱浩然;梁循;马跃峰;纪阳;李启东;马超;;金融领域中文微博情感分析[A];第八届(2013)中国管理学年会——金融分会场论文集[C];2013年
2 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 孔维泽;刘奕群;张敏;马少平;;问答社区中回答质量的评价方法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
5 代劲;何中市;胡峰;;一种高性能的文本特征自动提取算法[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
6 颜燕;;新浪微博上的天文科普[A];科普惠民 责任与担当——中国科普理论与实践探索——第二十届全国科普理论研讨会论文集[C];2013年
相关博士学位论文 前1条
1 钱涛;中文微博文本规范化方法及关键技术研究[D];武汉大学;2016年
相关硕士学位论文 前10条
1 张彬;中文微博情感倾向性分析研究[D];华南理工大学;2015年
2 田乐;中文微博中的问题检测技术研究[D];复旦大学;2014年
3 张俊;中文微博情感分析[D];西北民族大学;2015年
4 金镇晟;基于改进的TF-IDF算法的中文微博话题检测与研究[D];北京理工大学;2015年
5 夏梦南;中文微博情感倾向性分析与情感要素抽取方法[D];北京工业大学;2015年
6 邹梦宇;基于多方法融合的中文微博情感倾向性分析研究[D];北方工业大学;2016年
7 邢纪哲;基于中文微博的情感分类技术研究[D];东北大学;2014年
8 李翠;小学语文微课设计开发研究[D];贵州师范大学;2015年
9 梁礼欣;基于条件随机场的中文微博情感分析研究[D];广东工业大学;2016年
10 黄晓琴;基于核心素养的小学语文微课程开发研究[D];西南大学;2016年
本文编号:2524031
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2524031.html