基于监督学习的写作风格建模方法研究
本文关键词:基于监督学习的写作风格建模方法研究,由笔耕文化传播整理发布。
【摘要】:随着移动互联网技术快速发展,人类依赖计算机从事的工作越来越多,也越需要计算机能够智能地理解和处理海量的自然语言信息。在自然语言处理中,个人言语、作品风格分析是计算语言学的经典的研究工作,也是难以得到突破的研究。写作风格是一个主观性的描述,目前还没有一个严谨的数学模型能够表达写作风格。本课题的研究思路是结合语言学对写作风格定义和可计算方式,用形式化的数学模型表达,然后机器学习的方法进行实验佐证,通过实验反过来修改理论,最终得到一个比较严谨的数学表达。从这个研究思路出发,本课题首先查阅国内外文献,结合前人工作与风格理论,用数学符号形式定义了文章的写作风格,并扩展如何用机器学习算法学习写作风格的定义。定义写作风格模型后,提出了整体总体的建模方案,而且针对建模过程中的关键问题,本课题进行展开详细说明。为了验证模型和建模的有效性,本课题展开了写作风格特征提取分析、刻画以及识别研究。在写作风格特征提取刻画研究中,提出了聚类分析来自动提取风格特征,然后使用四分位差统计法来刻画写作风格,最后的实验结果验证了写作风格的定义。在写作风格识别中,使用了支持向量机算法来建立写作风格分类器,实验结果证明特征并不是越多越好,经过自动提取优化的特征集会提升识别准确。为了对比及改善支持向量机算法,提出了两种基于集成学习算法的写作风格识别方法,实验结果证明提出的两种方法可以提高识别的准确率。
【关键词】:计算机语言 机器学习 写作风格 模型 监督学习
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP18
【目录】:
- 摘要4-5
- Abstract5-12
- 第1章 绪论12-19
- 1.1 引言12
- 1.2 研究背景和意义12-13
- 1.2.1 研究背景12-13
- 1.2.2 研究意义13
- 1.3 “写作风格”描述定义13-14
- 1.4 国内外研究现状14-16
- 1.5 研究工作16-17
- 1.5.1 问题综述16-17
- 1.5.2 主要工作17
- 1.6 本文内容与结构17-19
- 第2章 写作风格建模19-38
- 2.1 引言19
- 2.2 写作风格模型定义19-24
- 2.2.1 写作风格模型定义19-21
- 2.2.2 写作风格建模总体方案21-24
- 2.3 特征提取选择24-34
- 2.3.1 特征提取25-32
- 2.3.2 特征选择32-34
- 2.4 模型训练和评估34-37
- 2.4.1 学习训练34-36
- 2.4.2 测试和评价36-37
- 2.5 本章小结37-38
- 第3章 写作风格刻画与识别38-60
- 3.1 引言38
- 3.2 基于聚类分析的写作风格刻画38-42
- 3.2.1 聚类分析38-39
- 3.2.2 写作风格刻画39-42
- 3.3 基于支持向量机的写作风格识别42-49
- 3.3.1 线性支持向量机42-43
- 3.3.2 多类支持向量机分类43-44
- 3.3.3 支持向量机的写作分类器训练44-48
- 3.3.4 性能评估48-49
- 3.4 实验设计及分析49-59
- 3.4.1 实验环境49-50
- 3.4.2 写作风格特征提取和刻画50-56
- 3.4.3 SVM算法的写作风格识别56-59
- 3.5 本章小结59-60
- 第4章 基于集成学习的写作风格识别60-75
- 4.1 引言60-61
- 4.2 基于SVM-KNN组合算法的写作风格识别61-65
- 4.2.1 邻近算法61-62
- 4.2.2 SVM-KNN组合算法62-63
- 4.2.3 基于SVM-KNN算法的分类器训练63-65
- 4.3 基于元学习策略的层叠泛化方法的写作风格识别65-70
- 4.3.1 相关的监督学习算法理论65-67
- 4.3.2 元学习策略的叠层泛化模型67-69
- 4.3.3 基于多元线性回归的的元分类器训练69-70
- 4.4 实验设计及分析70-73
- 4.4.1 实验环境70-71
- 4.4.2 实验设计71-72
- 4.4.3 不同学习算法训练的分类器性能对比72-73
- 4.5 本章小结73-75
- 第5章 总结与展望75-77
- 5.1 课题总结75-76
- 5.1.1 研究结论75-76
- 5.1.2 研究不足点76
- 5.2 研究展望76-77
- 参考文献77-80
- 致谢80-81
- 附录Ⅰ 词性标注表81-83
- 附录Ⅱ 实验数据输入的数据格式83
【相似文献】
中国期刊全文数据库 前7条
1 郑保卫;风格即其人——试论马克思和恩格斯的写作风格与人格特征[J];新闻与写作;1995年12期
2 张景勇;怎样写活经济报道──浅谈詹国枢经济报道的写作风格[J];新闻与写作;1999年01期
3 ;参赛要求[J];电脑爱好者;1998年20期
4 李翩影;;都市报深度报道现状研究——以《南方都市报》为例[J];新闻世界;2014年07期
5 蔡华东;再谈新闻写作风格[J];新闻前哨;2002年11期
6 张凯;张明允;;基于SVM的《红楼梦》写作风格研究[J];贵阳学院学报(自然科学版);2011年01期
7 ;[J];;年期
中国重要会议论文全文数据库 前1条
1 孙晓明;马少平;;基于写作风格的作者识别[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前3条
1 丰县李寨初级中学 张业永;阅读兴趣对写作风格的影响[N];江苏教育报;2010年
2 郭增彬;编辑应尊重作者的写作风格[N];中华新闻报;2004年
3 贺安敬;做一个聪明的失败者[N];中国石油报;2002年
中国硕士学位论文全文数据库 前2条
1 陈得福;基于监督学习的写作风格建模方法研究[D];浙江大学;2016年
2 朱牧;基于写作风格特征的论文剽窃检查优化方法研究[D];复旦大学;2011年
本文关键词:基于监督学习的写作风格建模方法研究,由笔耕文化传播整理发布。
,本文编号:362141
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/362141.html