当前位置:主页 > 管理论文 > 移动网络论文 >

基于依存关系的中文微博作者性别识别

发布时间:2019-05-10 13:21
【摘要】:【目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点,探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料,抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中文微博作者性别识别任务中的准确率、召回率和F-Measure最高。【局限】依存关系在微博作者性别识别中的有效性还需在大规模语料上进一步验证。【结论】本文模型能够避免短文本特征集的稀疏性,与其他对照特征集相比,能更有效地识别作者性别。
[Abstract]:[objective] to explore the application of dependency in gender identification of Chinese Weibo authors in view of the short length of network text and sparse collection of traditional stylistic features. [methods] Tencent Open Weibo was selected as the experimental corpus. The dependency features were extracted and compared with the lexical features, structural features, functional word features, part-of-speech tagging features and Weibo features in the existing literature. [results] support vector machine (SVM) and naive Bays were used. The comparison experiment of nearest neighbor and decision tree algorithm verifies the accuracy of this method in the gender recognition task of Chinese Weibo authors. The recall rate and F-Measure are the highest. The effectiveness of dependency in the gender recognition of Weibo authors needs to be further verified on large-scale corpus. [conclusion] this model can avoid the sparsity of short text feature collection. Compared with other control feature sets, the author's gender can be identified more effectively.
【作者单位】: 大连外国语大学软件学院;
【基金】:国家社会科学基金一般项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028) 国家教育部回国人员科研启动基金项目(项目编号:教外司[2015]1098)的研究成果之一
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前4条

1 祁瑞华;杨德礼;郭旭;刘彩虹;;基于多层面文体特征的博客作者身份识别研究[J];情报学报;2015年06期

2 王晶晶;李寿山;黄磊;;中文微博用户性别分类方法研究[J];中文信息学报;2014年06期

3 黄发良;熊金波;黄添强;刘西蒙;;基于粗糙集的微博用户性别识别[J];计算机应用;2014年08期

4 唐琴;林鸿飞;;文本中人物性别识别研究[J];中文信息学报;2010年02期

相关硕士学位论文 前1条

1 白丽娟;基于文本挖掘的性别分类研究[D];哈尔滨工业大学;2011年

【共引文献】

相关期刊论文 前10条

1 祁瑞华;;基于依存关系的中文微博作者性别识别[J];数据分析与知识发现;2017年02期

2 宋巍;谢兴波;刘丽珍;王函石;;用户隐藏属性推断研究综述[J];小型微型计算机系统;2017年02期

3 胡龙茂;;中文在线评论的用户性别判定研究[J];通化师范学院学报;2016年12期

4 郭旭;祁瑞华;;作者身份识别中不规范文本特征选择方法的研究[J];现代图书情报技术;2016年11期

5 宋巍;刘丽珍;王函石;;基于兴趣偏好的微博用户性别推断研究[J];电子学报;2016年10期

6 刘宝芹;牛耘;;基于情绪特征的中文微博用户性别识别[J];计算机工程与科学;2016年09期

7 王泽昕;;基于身高和b贸な莸男员鸱掷嘌芯縖J];科学中国人;2016年24期

8 钱铁云;尤珍妮;陈丽;王飞;;基于兴趣标签的缄默用户性别预测研究[J];华中科技大学学报(自然科学版);2015年12期

9 洪丹;;微博及中文微博信息处理研究综述[J];佳木斯职业学院学报;2015年04期

10 黄发良;熊金波;黄添强;刘西蒙;;基于粗糙集的微博用户性别识别[J];计算机应用;2014年08期

【二级参考文献】

相关期刊论文 前10条

1 吕英杰;范静;刘景方;;基于文体学的中文UGC作者身份识别研究[J];现代图书情报技术;2013年09期

2 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期

3 张剑峰;夏云庆;姚建民;;微博文本处理研究综述[J];中文信息学报;2012年04期

4 唐琴;林鸿飞;;文本中人物性别识别研究[J];中文信息学报;2010年02期

5 唐琴;宋锐;林鸿飞;;基于Chunk-CRF的情感问答研究[J];智能系统学报;2008年06期

6 陆春艳;;语言里的性别差异[J];安徽文学(下半月);2008年04期

7 李新光;;浅谈小说教学中的人物形象分析[J];科教文汇(上旬刊);2007年02期

8 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期

9 王厚峰,梅铮;鲁棒性的汉语人称代词消解[J];软件学报;2005年05期

10 钱进;语言性别差异研究综述[J];甘肃社会科学;2004年06期

相关硕士学位论文 前3条

1 牛海根;文本挖掘技术在短信文本中的应用研究[D];电子科技大学;2007年

2 樊斌;基于汉语语料库的性别词汇研究[D];武汉理工大学;2005年

3 张燕芗;性别差异在语言使用中的体现[D];福建师范大学;2005年

【相似文献】

相关期刊论文 前10条

1 郭飞飞;王小华;谌志群;王荣波;;基于回应消息的中文微博情感分类方法[J];杭州电子科技大学学报;2013年06期

2 李赫元;俞晓明;刘悦;程学旗;程工;;中文微博客的垃圾用户检测[J];中文信息学报;2014年03期

3 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期

4 王银;吴新玲;;中文微博情感分析方法研究[J];广东技术师范学院学报;2014年03期

5 肖s,

本文编号:2473678


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2473678.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ac7f4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com