基于写作风格裂缝发现的作者识别技术研究
发布时间:2024-12-31 23:06
为了剽窃他人的知识成果并且躲避学术不端检测,抄袭者们往往不会整段抄袭,抄袭内容也会经过处理。本文是基于这个背景下,从写作风格的角度出发,进行文章原创性的判定工作。写作风格是作者长期写作留下的习惯,不会在短期发生改变,对作者写作风格的研究,可以挖掘作者的写作习惯从而判定文章的原创性。本文了解和总结了国内外相关领域的现状和方法,设计了一套属于自己的原创性检测方法。文章可能不是由一个人完成的,所以本文首次提出了“风格裂缝”这一概念,风格裂缝表示风格发生转变的位置,根据风格裂缝进行文本分段。风格裂缝的识别是通过风格特征提取来实现的,分别从词、句、情感多方面的考虑风格特征,本文设计了7个特征用于风格裂缝识别。根据风格特征提取的结果结合聚类算法找出风格裂缝的位置,根据风格裂缝进行文本分割。在风格裂缝识别的基础上对每个部分进行作者识别,本文构建了词语级别作者识别框架(ARTW)用于作者识别,该框架以GloVe词向量为底层的词向量支持,将Bi-GRU嵌入到孪生神经网络中用于文本的特征表示。使用Bi-GRU高阶特征抽取,使用孪生神经网络进行相似度计算。在训练过程对虚词加入attention机制,使网络更快...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题背景及意义
1.2 国内外研究现状
1.2.1 风格特征提取
1.2.2 文本分割技术
1.2.3 作者识别
1.2.4 存在问题
1.3 论文研究内容
1.4 论文组织结构
第2章 相关理论及技术
2.1 相关理论
2.2 文本相似度计算
2.2.1 向量空间模型
2.2.2 汉明距离
2.2.3 皮尔逊相关系数
2.3 语言模型
2.3.1 TF-IDF算法
2.3.2 GloVe模型
2.4 机器学习算法
2.4.1 K-means算法
2.4.2 Attention机制
2.4.3 GRU神经网络
2.4.4 孪生神经网络
2.5 本章小结
第3章 基于风格特征融合的风格裂缝识别
3.1 引言
3.2 风格特征提取
3.2.1 单维风格特征
3.2.2 多维风格特征
3.3 风格裂缝的识别
3.3.1 滑动窗口
3.3.2 参数权重法
3.3.3 基于风格特征的风格聚类
3.4 实验结果与分析
3.4.1 单特征风格裂缝识别结果
3.4.2 参数权重法
3.4.3 风格裂缝识别
3.5 本章小结
第4章 基于风格裂缝的作者识别技术
4.1 词语级别作者识别框架ARTW
4.2 高阶特征提取
4.2.1 语料库预处理
4.2.2 单词向量化
4.2.3 多层神经网络训练
4.3 决策网络
4.3.1 相似度结果输出
4.3.2 联合损失函数
4.4 实验结果和分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:4021673
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题背景及意义
1.2 国内外研究现状
1.2.1 风格特征提取
1.2.2 文本分割技术
1.2.3 作者识别
1.2.4 存在问题
1.3 论文研究内容
1.4 论文组织结构
第2章 相关理论及技术
2.1 相关理论
2.2 文本相似度计算
2.2.1 向量空间模型
2.2.2 汉明距离
2.2.3 皮尔逊相关系数
2.3 语言模型
2.3.1 TF-IDF算法
2.3.2 GloVe模型
2.4 机器学习算法
2.4.1 K-means算法
2.4.2 Attention机制
2.4.3 GRU神经网络
2.4.4 孪生神经网络
2.5 本章小结
第3章 基于风格特征融合的风格裂缝识别
3.1 引言
3.2 风格特征提取
3.2.1 单维风格特征
3.2.2 多维风格特征
3.3 风格裂缝的识别
3.3.1 滑动窗口
3.3.2 参数权重法
3.3.3 基于风格特征的风格聚类
3.4 实验结果与分析
3.4.1 单特征风格裂缝识别结果
3.4.2 参数权重法
3.4.3 风格裂缝识别
3.5 本章小结
第4章 基于风格裂缝的作者识别技术
4.1 词语级别作者识别框架ARTW
4.2 高阶特征提取
4.2.1 语料库预处理
4.2.2 单词向量化
4.2.3 多层神经网络训练
4.3 决策网络
4.3.1 相似度结果输出
4.3.2 联合损失函数
4.4 实验结果和分析
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:4021673
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4021673.html
最近更新
教材专著