当前位置:主页 > 科技论文 > 自动化论文 >

中文文本的作者身份识别研究

发布时间:2020-05-22 09:52
【摘要】:文本作者身份识别一直是自然语言处理工作中的研究重点,有着广阔的前景。在信息安全领域其可以用于作品版权的保护;在公安行业和文检工作中也可以用于有害信息的作者身份认定,为破案提供一定的思路和技术支持。目前对于文本作者身份识别而言,缺乏统一的写作风格特征集,人工参与程度高,语料依赖性强,筛选过程客观性不足。为实现自动化特征提取,提高识别准确率,本文基于深度学习做出如下工作与创新:首先针对作者语言风格建模过程中,不同语料需要建设不同的特征工程,特征提取繁琐且没有普适性的问题。本文基于深度学习框架,在无需专家进行特征建模的情况下,提出了CABLSTM中文文本作者身份识别模型。为最大化的提取短文本特征,该模型利用卷积神经网络的卷积特效融合注意力机制并去除池化层以防止部分特征被丢弃,构成文本特征提取器,通过输入双向长短期记忆神经网络获取上下文时序文本特征,最后将身份识别结果通过Softmax层进行输出。其次本文基于以上模型设计并实现了文本作者身份识别系统,该系统可以对测试文本进行文本分析,通过本文提出的TankRank-LL算法计算输出文本关键词、短语、摘要;通过百度AI情绪分析输出文本情绪倾向;通过CABLSTM模型输出识别作者。最后本文以中文微博为语料进行了以下实验:分词准确率实验;与传统身份识别算法、深度学习算法的身份识别对照实验;关键词抽取改进实验。通过在准确率、召回率、F值方面的比较,从而验证本文提出的算法、模型、系统的优越性。
【图文】:

比较图,学习模型,比较图,模型


图 20 CABLSTM 模型与其他深度学习模型比较图 20 所示,,对结果进行对比分析:(1)总体上,三种深识别任务上准确率、召回率和 F-Measure 均达到了 70%很好的应用于中文文本作者的身份识别。(2)从算法 模型在准确率、召回率和 F-Measure 对 TextCNN 及 LS可以说明本文模型中对于卷积神经网络去除池化层并融

识别算法


P 0.44 0.39 0.36 0.45 0.42 0..41 0.65 0.33 0.55 R 0.42 0.41 0.40 0.41 0.42 0.41 0.49 0.49 0.53 F 0.43 0.40 0.38 0.43 0.42 0.41 0.56 0.39 0.54 P 0.71 0.75 0.72 0.74 0.8 0.69 0.72 0.73 0.75 R 0.77 0.7 0.71 0.7 0.75 0.82 0.63 0.87 0.82 F 0.74 0.79 0.71 0.71 0.77 0.75 0.67 0.79 0.78 P 0.68 0.59 0.63 0.59 0.56 0.61 0.52 0.35 0.46 R 0.65 0.55 0. 66 0.55 0.59 0.59 0.56 0.36 0.41 F 0.66 0.57 0.65 0.57 0.57 0.60 0.54 0.37 0.44 P 0.8 0.79 0.82 0.84 0.79 0.83 0.85 0.77 0.75 R 0.8 0.81 0.8 0.82 0.81 0.8 0.75 0.77 0.79 F 0.8 0.79 0.81 0.83 0.79 0.81 0.79 0.77 0.76 P 1.0 0.92 0.97 0.87 0.94 0.94 1.0 1.0 1.0 R 0.99 0.98 0.97 0.71 0.94 0.92 0.98 0.99 0.98 F 0.99 0.95 0.97 0.78 0.94 0.93 0.99 0.99 0.99
【学位授予单位】:中国人民公安大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】

相关期刊论文 前10条

1 陈伟鹤;刘云;;基于词或词组长度和频数的短中文文本关键词提取算法[J];计算机科学;2016年12期

2 韩清月;;浅谈对外传播中文文本的写作[J];对外传播;2012年10期

3 樊林波;;《纽约公约》通过五十周年之年再论公约中文文本[J];仲裁研究;2009年01期

4 程涛;施水才;王霞;吕学强;;基于同义词词林的中文文本主题词提取[J];广西师范大学学报(自然科学版);2007年02期

5 兰杰;在西文状态下阅读中文文本文件[J];电脑知识;1997年02期

6 徐秉铮;吴立忠;Victor K.Wei;;中文文本压缩的LZW算法[J];华南理工大学学报(自然科学版);1989年03期

7 徐小龙;;中文文本情感分析方法研究[J];电脑知识与技术;2018年02期

8 郭义超;樊红;;基于中文文本分析的微博情感地图的制作[J];计算机系统应用;2017年02期

9 侯亚南;黄映辉;;用于形式背景提取的中文文本表示[J];计算机技术与发展;2010年09期

10 马晓玲;金碧漪;范并思;;中文文本情感倾向分析研究[J];情报资料工作;2013年01期

相关会议论文 前10条

1 于江德;肖新峰;樊孝忠;;基于隐马尔可夫模型的中文文本事件信息抽取[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年

2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年

3 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年

4 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

5 徐艳华;;中文文本中时间日期表达形式的自动检索[A];2004年辞书与数字化研讨会论文集[C];2004年

6 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年

7 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年

8 李东林;迟呈英;战学刚;;一个改进的中文文本过滤系统的设计与实现[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

9 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年

10 魏藜;周水庚;周傲英;;基于PPM方法的中文文本压缩[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

相关重要报纸文章 前10条

1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年

2 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年

3 西南政法大学行政法学院 石运宝;类型逻辑语法处理中文文本[N];中国社会科学报;2016年

4 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年

5 北京市工商局首都机场分局 段毅;一起涉外申诉成功调解回顾[N];中国工商报;2009年

6 冯晓娜;中英文混合输入[N];中国电脑教育报;2004年

7 濮阳荣;文学翻译的译写问题[N];文艺报;2007年

8 广西 周祖军;碟机的“蜕变”之路[N];电子报;2007年

9 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年

10 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年

相关博士学位论文 前7条

1 张伟;基于n-gram的中文文本复制检测研究[D];湖南大学;2014年

2 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年

3 王津;基于Valence-Arousal空间的中文文本情感分析方法研究[D];云南大学;2016年

4 张虎;面向中文文本的欺骗行为检测研究[D];山西大学;2014年

5 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年

6 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年

7 艾均;复杂网络中目标节点分析技术研究[D];东北大学;2013年

相关硕士学位论文 前10条

1 修玉环;手写中文文本视觉信息与语言信息特征层融合的深度网络模型研究[D];华东师范大学;2019年

2 徐晓霖;中文文本的作者身份识别研究[D];中国人民公安大学;2019年

3 张璐;面向中文文本的事件提取方法研究[D];中国人民公安大学;2019年

4 陆凤;“锦上添花”抑或“掩人耳目”?[D];厦门大学;2018年

5 胡健楠;中文文本情绪原因发现研究[D];哈尔滨工业大学;2018年

6 柯杜芹;基于贝叶斯算法的中文文本多标签分类的研究与实现[D];厦门大学;2017年

7 余伟中;基于VSM的中文文本分类算法研究[D];南京邮电大学;2018年

8 于海燕;基于知识嵌入的情感分类研究[D];中国计量大学;2017年

9 顾佳诚;面向中文文本的案事件时空信息解析方法[D];南京师范大学;2016年

10 曹康凯;中文文本情感分析关键问题的研究和优化[D];北京邮电大学;2018年



本文编号:2675816

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2675816.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fa327***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com