基于无监督学习的思想政治教育分词系统设计与实现
发布时间:2023-01-11 06:49
中文分词作为中文自然语言处理中的一项重要技术,其结果的优劣将直接影响到后续文本处理的效果,而在思想政治教育领域中,其领域词汇具有新词诞生速度快、覆盖面广、词汇量大等特点,这给领域内的分词以及后续工作造成了极大困难。针对以上问题,本文设计并实现了思想政治教育分词系统,本系统基于领域文献构建语料库,基于统计的思想训练字级语言模型,使用维特比算法获取初步中文分词结果,最终通过基于词频偏差的中文分词优化算法优化初步分词结果,系统针对分词结果为用户提供包括提取关键词、词频统计、绘制词云图等功能,从而实现对领域文献的中文分词以及文本分析。论文进行的主要工作和取得的相关成果如下:(1)论文研究了中文分词相关算法,参考传统词级N-gram语言模型训练流程,训练获得字级N-gram语言模型,基于语言模型使用维特比算法寻找文本最优分词路径作为初步分词结果,考虑到专业词汇较长的特征,加入基于词频偏差的分词优化算法对初步分词结果进行重组以进一步提升分词准确率,最终输出最优分词结果。(2)在构建语料库的过程中考虑到包括专业词汇、热点词汇以及常用词汇三个方面词汇的覆盖程度,利用爬虫等手段获取三个方面的不同的领域文...
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 中文分词研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
1.5 本章小结
第二章 思想政治教育分词系统需求分析
2.1 系统需求概述
2.2 需求分析
2.2.1 用户功能性需求分析
2.2.2 系统功能性需求分析
2.2.3 非功能性需求分析
2.3 系统可行性分析
2.3.1 技术可行性分析
2.3.2 经济可行性分析
2.4 本章小结
第三章 思想政治教育分词系统整体设计
3.1 系统结构设计
3.2 系统模块设计
3.2.1 语料训练模块
3.2.2 中文分词模块
3.2.3 特征提取模块
3.2.4 系统流程图
3.3 数据库设计
3.3.1 E-R图
3.3.2 数据库表设计
3.4 系统设计目标及要求
3.5 本章小结
第四章 思想政治教育中文分词算法设计与实现
4.1 引言
4.2 中文分词方法研究
4.2.1 语料库的构建
4.2.2 字级N-gram语言模型
4.2.3 训练语言模型
4.2.4 计算分词路径
4.3 中文分词优化方法研究
4.3.1 词频偏差与排序词频偏差
4.3.2 基于词频偏差的词组合并算法
4.4 算法测试
4.4.1 实验语料
4.4.2 语言模型对比测试
4.4.3 算法准确率测试
4.4.4 优化算法测试
4.5 本章小结
第五章 思想政治教育分词系统整体实现
5.1 引言
5.2 系统实现
5.2.1 系统关键功能
5.2.2 界面布局与主页导读
5.2.3 语料训练模块
5.2.4 中文分词模块
5.2.5 特征提取模块
5.3 系统测试
5.3.1 系统安全测试
5.3.2 系统功能测试
5.3.3 系统性能测试
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]无监督分词算法在新词识别中的应用[J]. 姜涛,陆阳,张洁,洪建. 小型微型计算机系统. 2020(04)
[2]基于神经网络的中文分词技术研究[J]. 马学海. 科学技术创新. 2019(32)
[3]中文文本分类方法综述[J]. 于游,付钰,吴晓平. 网络与信息安全学报. 2019(05)
[4]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[5]应用Jieba和Wordcloud库的词云设计与优化[J]. 徐博龙. 福建电脑. 2019(06)
[6]面向实体标注的军事语料库建设[J]. 周彬彬,张宏军,张睿,冯蕴天,徐有为. 计算机科学. 2019(S1)
[7]基于规则和N-Gram算法的新词识别研究[J]. 姜如霞,黄水源,段隆振,罗丽娟. 现代电子技术. 2019(04)
[8]基于统计的中文分词算法研究[J]. 邹佳伦,文汉云,王同喜. 电脑知识与技术. 2019(04)
[9]自然语言处理发展与应用概述[J]. 高源. 中国新通信. 2019(02)
[10]基于字簇的多模型中文分词方法研究[J]. 李对红,王裴岩,张桂平,张少阳. 计算机应用研究. 2020(02)
博士论文
[1]基于n-gram的中文文本复制检测研究[D]. 张伟.湖南大学 2014
[2]中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学 2004
硕士论文
[1]基于深度学习的中文分词和关键词抽取模型研究[D]. 黄丹丹.北京邮电大学 2019
[2]基于条件随机场的中文分词技术的研究与实现[D]. 徐晓芳.南京邮电大学 2018
[3]基于统计和规则的中文地址分词系统设计与实现[D]. 袁向铎.东南大学 2018
[4]面向领域文献的中文分词方法研究[D]. 孙浩浩.山东科技大学 2018
[5]基于统计与词典相结合的中文分词的研究与实现[D]. 周祺.哈尔滨工业大学 2015
[6]基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学 2015
[7]基于词典的中文分词算法研究及其在Nutch系统中的应用[D]. 王天怡.吉林大学 2012
[8]基于机器学习的中文分词的研究与实现[D]. 崔明明.沈阳工业大学 2009
本文编号:3729604
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 课题研究背景及意义
1.2 中文分词研究现状
1.3 论文主要研究内容
1.4 论文的组织结构
1.5 本章小结
第二章 思想政治教育分词系统需求分析
2.1 系统需求概述
2.2 需求分析
2.2.1 用户功能性需求分析
2.2.2 系统功能性需求分析
2.2.3 非功能性需求分析
2.3 系统可行性分析
2.3.1 技术可行性分析
2.3.2 经济可行性分析
2.4 本章小结
第三章 思想政治教育分词系统整体设计
3.1 系统结构设计
3.2 系统模块设计
3.2.1 语料训练模块
3.2.2 中文分词模块
3.2.3 特征提取模块
3.2.4 系统流程图
3.3 数据库设计
3.3.1 E-R图
3.3.2 数据库表设计
3.4 系统设计目标及要求
3.5 本章小结
第四章 思想政治教育中文分词算法设计与实现
4.1 引言
4.2 中文分词方法研究
4.2.1 语料库的构建
4.2.2 字级N-gram语言模型
4.2.3 训练语言模型
4.2.4 计算分词路径
4.3 中文分词优化方法研究
4.3.1 词频偏差与排序词频偏差
4.3.2 基于词频偏差的词组合并算法
4.4 算法测试
4.4.1 实验语料
4.4.2 语言模型对比测试
4.4.3 算法准确率测试
4.4.4 优化算法测试
4.5 本章小结
第五章 思想政治教育分词系统整体实现
5.1 引言
5.2 系统实现
5.2.1 系统关键功能
5.2.2 界面布局与主页导读
5.2.3 语料训练模块
5.2.4 中文分词模块
5.2.5 特征提取模块
5.3 系统测试
5.3.1 系统安全测试
5.3.2 系统功能测试
5.3.3 系统性能测试
5.4 本章小结
第六章 总结与展望
6.1 总结
6.2 展望
参考文献
致谢
附录
【参考文献】:
期刊论文
[1]无监督分词算法在新词识别中的应用[J]. 姜涛,陆阳,张洁,洪建. 小型微型计算机系统. 2020(04)
[2]基于神经网络的中文分词技术研究[J]. 马学海. 科学技术创新. 2019(32)
[3]中文文本分类方法综述[J]. 于游,付钰,吴晓平. 网络与信息安全学报. 2019(05)
[4]基于Python的中文结巴分词技术实现[J]. 曾小芹. 信息与电脑(理论版). 2019(18)
[5]应用Jieba和Wordcloud库的词云设计与优化[J]. 徐博龙. 福建电脑. 2019(06)
[6]面向实体标注的军事语料库建设[J]. 周彬彬,张宏军,张睿,冯蕴天,徐有为. 计算机科学. 2019(S1)
[7]基于规则和N-Gram算法的新词识别研究[J]. 姜如霞,黄水源,段隆振,罗丽娟. 现代电子技术. 2019(04)
[8]基于统计的中文分词算法研究[J]. 邹佳伦,文汉云,王同喜. 电脑知识与技术. 2019(04)
[9]自然语言处理发展与应用概述[J]. 高源. 中国新通信. 2019(02)
[10]基于字簇的多模型中文分词方法研究[J]. 李对红,王裴岩,张桂平,张少阳. 计算机应用研究. 2020(02)
博士论文
[1]基于n-gram的中文文本复制检测研究[D]. 张伟.湖南大学 2014
[2]中文信息处理中若干关键技术的研究[D]. 王建会.复旦大学 2004
硕士论文
[1]基于深度学习的中文分词和关键词抽取模型研究[D]. 黄丹丹.北京邮电大学 2019
[2]基于条件随机场的中文分词技术的研究与实现[D]. 徐晓芳.南京邮电大学 2018
[3]基于统计和规则的中文地址分词系统设计与实现[D]. 袁向铎.东南大学 2018
[4]面向领域文献的中文分词方法研究[D]. 孙浩浩.山东科技大学 2018
[5]基于统计与词典相结合的中文分词的研究与实现[D]. 周祺.哈尔滨工业大学 2015
[6]基于统计和语义信息的中文分词算法研究[D]. 李良洁.青岛科技大学 2015
[7]基于词典的中文分词算法研究及其在Nutch系统中的应用[D]. 王天怡.吉林大学 2012
[8]基于机器学习的中文分词的研究与实现[D]. 崔明明.沈阳工业大学 2009
本文编号:3729604
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3729604.html
最近更新
教材专著