当前位置:主页 > 科技论文 > 软件论文 >

作者身份识别中不规范文本特征选择方法的研究

发布时间:2017-09-17 04:48

  本文关键词:作者身份识别中不规范文本特征选择方法的研究


  更多相关文章: 作者身份 不规范文本 网络文本 文本相似度


【摘要】:【目的】从不规范文本中提取特征,识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法:利用在Jaccard系数的基础上定义的不规范文本相似度M;利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%,加入这两种特征后,传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性,并没有针对更高层面的特性进行研究,如句法层面、结构层面。【结论】本文提出的特征提取方法,可以有效地提取不规范文本特征,有助于作者身份识别系统识别正确率的提升。
【作者单位】: 大连外国语大学软件学院;
【关键词】作者身份 不规范文本 网络文本 文本相似度
【基金】:国家社会科学基金项目“典籍英译国外读者网上评论观点挖掘研究”(项目编号:15BYY028) 大连外国语大学科研项目“英文作者身份识别中书写不规范文本处理方法的研究”(项目编号:2014XJQN15)的研究成果之一
【分类号】:TP391.1
【正文快照】: 1引言作者身份识别作为自然语言处理的一个重要方向,一直倍受关注。随着微信、微博等社交网络的兴起与大数据时代的到来,出于对道德与信息安全方面的考虑,人们对网络文本作者身份正确认证的需求变得更加迫切。如在舆情监控中,一些恶意信息是否出于同一作者,又如垃圾邮件的作者

本文编号:867355

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/867355.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户422e6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com