作者身份识别中不规范文本特征选择方法的研究

发布时间：2017-09-17 04:48

本文关键词：作者身份识别中不规范文本特征选择方法的研究

【摘要】：【目的】从不规范文本中提取特征,识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法:利用在Jaccard系数的基础上定义的不规范文本相似度M;利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%,加入这两种特征后,传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性,并没有针对更高层面的特性进行研究,如句法层面、结构层面。【结论】本文提出的特征提取方法,可以有效地提取不规范文本特征,有助于作者身份识别系统识别正确率的提升。
【作者单位】：大连外国语大学软件学院;
【关键词】： 作者身份 不规范文本 网络文本 文本相似度
【基金】：国家社会科学基金项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028) 大连外国语大学科研项目“英文作者身份识别中书写不规范文本处理方法的研究”(项目编号:2014XJQN15)的研究成果之一
【分类号】：TP391.1
【正文快照】： 1引言作者身份识别作为自然语言处理的一个重要方向,一直倍受关注。随着微信、微博等社交网络的兴起与大数据时代的到来,出于对道德与信息安全方面的考虑,人们对网络文本作者身份正确认证的需求变得更加迫切。如在舆情监控中,一些恶意信息是否出于同一作者,又如垃圾邮件的作者，

本文编号：867355

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/867355.html

上一篇：基于多算法融合的多车牌定位方法研究
下一篇：基于稀疏PCA的多阶次分数阶傅里叶变换域特征人脸识别

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|