中文现代小说的作者识别研究
发布时间:2021-10-08 12:32
中文现代小说的作者识别实际上一种文本分类问题,即根据作者写作风格进行分类,从而识别出未知作品所归属的作者。笔者选择基于五四运动时期的现代小说作为研究对象,是因为五四时期作品的时代跨度小,作者笔锋相近,通过对作者文风相近的文章进行分类,可以达到文本分类中按照作者进行分类的最好效果。文本分类的主要流程是获取数据、文本预处理、特征提取、设计程序模型、使用程序模型、预测结果。笔者所做的工作如下:首先是获取数据,使用爬虫技术从网络爬取数据,本文项目语言选择Python,使用Scrapy框架爬取数据。笔者选择7名作者共164篇文章,并按照8:2的比率分成训练集和测试集。文本预处理部分包括数据清洗、分词、文本表示等。从网络爬取的数据包含很多Html语句和空行等,首先清除掉;之后利用Jieba分词工具进行中文分词处理,分词后的文本中包含16万个词汇,属于非结构化的自然语言,想要机器可以识别,需要表示成结构化的机器语言,即文本表示;文本表示出笔者使用词袋模型,把所有词语表示成机器可以识别的数字语言,比如139863、52411等。为了达到文本分类的更好效果,笔者使用TFIDF进行特征提取。根据本文按照作...
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:44 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究领域
1.2 研究背景及意义
1.3 国内外研究现状
1.4 课题论文结构
2 作者识别系统设计
2.1 系统功能设计
2.2 系统功能改进点
2.3 软件环境
2.4 项目布局
2.5 本章小结
3 作者识别系统实现
3.1 获取数据
3.2 文本预处理
3.2.1 中文分词
3.2.2 文本表示
3.3 特征提取
3.3.1 TFIDF基本原理
3.3.2 TFIDF改进
3.4 生成分类模型
3.5 本章小节
4 作者识别系统优化
4.1 模型参数调优
4.1.1 朴素贝叶斯
4.1.2 支持向量机
4.1.3 逻辑回归
4.1.4 K近邻
4.1.5 随机森林
4.1.6 神经网络
4.1.7 参数调优后结果
4.2 调整TFIDF值
4.3 本章小节
5 作者识别系统测试
5.1 变换数据集测试
5.2 进一步工作
5.2.1 作者写作风格相似度量化
5.2.2 对未知作者按写作风格分类判定
5.3 本章小节
结论
参考文献
致谢
【参考文献】:
硕士论文
[1]中文作者识别方法研究[D]. 万晶.湖南大学 2012
[2]基于图结构的中文文本聚类方法研究[D]. 刘巧凤.大连理工大学 2009
[3]汉语文本作者识别方法的研究与实现[D]. 张剑.上海交通大学 2007
本文编号:3424167
【文章来源】:大连理工大学辽宁省 211工程院校 985工程院校 教育部直属院校
【文章页数】:44 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 研究领域
1.2 研究背景及意义
1.3 国内外研究现状
1.4 课题论文结构
2 作者识别系统设计
2.1 系统功能设计
2.2 系统功能改进点
2.3 软件环境
2.4 项目布局
2.5 本章小结
3 作者识别系统实现
3.1 获取数据
3.2 文本预处理
3.2.1 中文分词
3.2.2 文本表示
3.3 特征提取
3.3.1 TFIDF基本原理
3.3.2 TFIDF改进
3.4 生成分类模型
3.5 本章小节
4 作者识别系统优化
4.1 模型参数调优
4.1.1 朴素贝叶斯
4.1.2 支持向量机
4.1.3 逻辑回归
4.1.4 K近邻
4.1.5 随机森林
4.1.6 神经网络
4.1.7 参数调优后结果
4.2 调整TFIDF值
4.3 本章小节
5 作者识别系统测试
5.1 变换数据集测试
5.2 进一步工作
5.2.1 作者写作风格相似度量化
5.2.2 对未知作者按写作风格分类判定
5.3 本章小节
结论
参考文献
致谢
【参考文献】:
硕士论文
[1]中文作者识别方法研究[D]. 万晶.湖南大学 2012
[2]基于图结构的中文文本聚类方法研究[D]. 刘巧凤.大连理工大学 2009
[3]汉语文本作者识别方法的研究与实现[D]. 张剑.上海交通大学 2007
本文编号:3424167
本文链接:https://www.wllwen.com/gudaiwenxuelunwen/3424167.html