中文微博作者身份识别研究
发布时间:2018-04-26 00:15
本文选题:中文 + 微博 ; 参考:《情报学报》2017年01期
【摘要】:本文针对中文微博篇幅短小、无间隔标记等特点,建立了由词汇特征、浅层句法和深层句法特征集组成的中文微博作者文体特征模型,选取支持向量机、序列最小优化支持向量机、朴素贝叶斯和决策树算法在公开微博语料上进行算法对照实验、特征集组合实验和各组文体特征的作者身份识别实验。实验结果验证了本文模型在中文微博作者身份识别任务中的高准确率、召回率和时间效率。
[Abstract]:In this paper, according to the features of Weibo, such as short length and no spacer marks, a stylistic feature model is established, which consists of lexical features, shallow syntactic features and deep syntactic features, and support vector machines are selected. Sequence minimization support vector machines, naive Bayes and decision tree algorithms are used to carry out algorithm control experiments on open Weibo corpus, feature set combination experiments and author identity recognition experiments for each group of stylistic features. The experimental results verify the high accuracy, recall rate and time efficiency of the proposed model in the task of Chinese Weibo author identification.
【作者单位】: 大连外国语大学软件学院;
【基金】:国家社会科学基金一般项目(15BYY028) 国家教育部回国人员科研启动基金(教外司[2015]1098) 教育部人文社科青年基金项目(11YJCZH131) 大连外国语大学科研项目(2013XJQN20,2014XJQN15)
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 郭飞飞;王小华;谌志群;王荣波;;基于回应消息的中文微博情感分类方法[J];杭州电子科技大学学报;2013年06期
2 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期
3 王银;吴新玲;;中文微博情感分析方法研究[J];广东技术师范学院学报;2014年03期
4 肖s,
本文编号:1803614
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1803614.html