基于机器学习的中文自动文摘技术研究与实现
发布时间:2022-07-13 10:52
大数据时代,互联网上的信息呈爆炸式增长,人们更多的在网络上搜索知识、浏览新闻。因此,快速、高效的获取主要信息是人们的共同需求。文摘是一篇文章的精炼概括,既反映了文章的主题又极大地降低了人们获取主要信息的成本。随着计算机技术的发展,使用计算机自动的获取文本摘要信息成为现实。在自然语言处理领域,不断提高自动文摘的精准度成为重要的研究方向。本文对基于机器学习方法的抽取式自动文摘进行了深入研究。在文本信息的特征提取方面,首先总结了基于统计和规则的文本特征;其次融入了中文语言学方面的特征,如:词性特征、语义角色特征、依存句法特征、语义依存特征;最后引入基于深度学习的Word2vec词向量特征。最终将文本中的句子转换为347维的特征向量作为机器学习模型的输入。在考虑了数据集人工文摘形式的基础上,利用文本信息的这些丰富特征,使用了六种经典的回归算法模型对文本信息进行自动文摘抽取。与传统方法进行对比,拥有丰富特征集合的机器学习方法提高了自动文摘的性能。在此基础上,利用表现优异的模型对时事新闻进行了自动文摘抽取,得到了不错的效果。
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第1章 绪论
1.1 研究的背景和意义
1.2 国内外研究状况
1.2.1 自动文摘的分类
1.2.2 抽取式自动文摘方法
1.2.3 自动文摘评价指标
第2章 基于多种特征融合的机器学习方法
2.1 特征提取
2.2 算法选择
2.2.1 多元线性回归算法
2.2.2 K近邻算法
2.2.3 K-D树算法
2.2.4 CART回归树算法
2.2.5 随机森林算法
2.2.6 GBDT算法
2.3 回归算法评价
第3章 实验过程及结果分析
3.1 数据预处理
3.2 特征转化
3.3 实验结果展示及模型评价
3.4 模型应用
第4章 结论
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[2]中文文献摘要的自动编制[J]. 莫燕,王永成. 现代图书情报技术. 1993(03)
[3]中文科技文献文摘的自动编写[J]. 苏海菊,王永成. 情报学报. 1989 (06)
本文编号:3659909
【文章页数】:54 页
【学位级别】:硕士
【文章目录】:
中文摘要
ABSTRACT
第1章 绪论
1.1 研究的背景和意义
1.2 国内外研究状况
1.2.1 自动文摘的分类
1.2.2 抽取式自动文摘方法
1.2.3 自动文摘评价指标
第2章 基于多种特征融合的机器学习方法
2.1 特征提取
2.2 算法选择
2.2.1 多元线性回归算法
2.2.2 K近邻算法
2.2.3 K-D树算法
2.2.4 CART回归树算法
2.2.5 随机森林算法
2.2.6 GBDT算法
2.3 回归算法评价
第3章 实验过程及结果分析
3.1 数据预处理
3.2 特征转化
3.3 实验结果展示及模型评价
3.4 模型应用
第4章 结论
参考文献
致谢
学位论文评阅及答辩情况表
【参考文献】:
期刊论文
[1]OA中文文献自动摘要系统[J]. 王永成,许慧敏. 情报学报. 1997(02)
[2]中文文献摘要的自动编制[J]. 莫燕,王永成. 现代图书情报技术. 1993(03)
[3]中文科技文献文摘的自动编写[J]. 苏海菊,王永成. 情报学报. 1989 (06)
本文编号:3659909
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3659909.html