当前位置:主页 > 科技论文 > 软件论文 >

面向网络教育新闻文本的区域分类方法研究

发布时间:2021-07-02 12:08
  随着互联网的快速发展和普及,网上教育新闻数据也越来越多。为了让关注教育新闻的相关人员根据需要,方便地获取到我国34个行政区中特定区域的教育新闻。本文通过收集大量的教育新闻文本,建立了带标记的教育新闻文本集,设计了适用教育新闻文本的区域分类方法。本文主要工作可以概括为:(1)为了降低人工标记文本集的成本,本文对网络教育新闻文本集的自动标记法进行了研究,提出了一种基于CGLTF-IDF特征提取和半监督聚类的教育新闻文本集自动标记方法。首先,通过网络爬虫进行文本获取并对其进行清洗;其次,收集教育地理名词形成教育地理词库,并对文档-逆文档频率(TF-IDF)特征提取方法进行改进,设计了适用于教育新闻文本的特征提取方法(CGLTF-IDF);然后,为了形成高质量带标记的训练集,提出了基于权值的样本选择标记策略;最后,构建了基于CGLTF-IDF特征提取和半监督聚类的教育新闻文本集自动标记模型,并对文本集进行标记。实验结果表明此种方法可以有效地对网络教育新闻文本集进行标记,从而为后期研究提供可训练的数据集。(2)为了对教育新闻文本进行行政区域分类,本文设计了一种基于投票策略的教育新闻文本的区域分类... 

【文章来源】:西安理工大学陕西省

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 论文组织结构
2 相关理论
    2.1 文本预处理
        2.1.1 中文分词
        2.1.2 去停用词
    2.2 文本表示
        2.2.1 文本特征提取及选择
        2.2.2 文本特征表示
    2.3 文本分类算法
        2.3.1 朴素贝叶斯
        2.3.2 卷积神经网络
        2.3.3 长短期记忆网络
    2.4 文本自动标记方法分析
        2.4.1 主动学习
        2.4.2 半监督学习
    2.5 性能评价标准
    2.6 本章小结
3 网络教育新闻文本集的自动标记方法研究
    3.1 网络教育新闻获取
        3.1.1 网络爬虫
        3.1.2 Scrapy爬虫框架
        3.1.3 网络教育新闻数据获取流程
    3.2 教育地理词库构建
    3.3 教育新闻文本预处理
        3.3.1 中文分词
        3.3.2 去停用词
    3.4 CGLTF-IDF特征提取及文本表示
        3.4.1 CGLTF-IDF特征提取
        3.4.2 文本表示
    3.5 基于权值的教育新闻文本标记选择策略
    3.6 基于CGLTF-IDF和半监督聚类的文本集自动标记器
    3.7 实验
        3.7.1 实验数据
        3.7.2 实验结果及分析
    3.8 本章小结
4 网络教育新闻文本的区域分类方法研究
    4.1 文本向量表示
    4.2 基于朴素贝叶斯的分类模型
        4.2.1 模型构建
        4.2.2 实验
    4.3 基于深度学习的分类模型
        4.3.1 基于卷积神经网络的分类模型构建
        4.3.2 基于LSTM的分类模型构建
        4.3.3 实验
    4.4 基于投票策略的教育新闻的区域分类模型
        4.4.1 模型构建
        4.4.2 实验
    4.5 教育新闻分类模型应用
    4.6 本章小结
5 总结与展望
    5.1 本文工作总结
    5.2 未来工作展望
致谢
参考文献
攻读学位期间主要研究成果


【参考文献】:
期刊论文
[1]基于CNN和BiLSTM网络特征融合的文本情感分析[J]. 李洋,董红斌.  计算机应用. 2018(11)
[2]基于深度学习的专利分类方法[J]. 马建红,王瑞杨,姚爽,刘双耀.  计算机工程. 2018(10)
[3]字符级卷积神经网络短文本分类算法[J]. 刘敬学,孟凡荣,周勇,刘兵.  计算机工程与应用. 2019(05)
[4]基于词向量特征扩展的中文短文本分类研究[J]. 雷朔,刘旭敏,徐维祥.  计算机应用与软件. 2018(08)
[5]基于主动学习先验的半监督K-means聚类算法[J]. 柴变芳,吕峰,李文斌,王垚.  计算机应用. 2018(11)
[6]基于半监督聚类方法的测试用例选择技术[J]. 程雪梅,杨秋辉,翟宇鹏,陈伟.  计算机科学. 2018(01)
[7]K最近邻算法理论与应用综述[J]. 毋雪雁,王水花,张煜东.  计算机工程与应用. 2017(21)
[8]基于卷积神经网络和KNN的短文本分类算法研究[J]. 殷亚博,杨文忠,杨慧婷,许超英.  计算机工程. 2018(07)
[9]主动学习算法研究进展[J]. 杨文柱,田潇潇,王思乐,张锡忠.  河北大学学报(自然科学版). 2017(02)
[10]基于Hash结构词典的双向最大匹配分词法[J]. 陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.  计算机科学. 2015(S2)

硕士论文
[1]面向商品的垂直搜索系统的设计与实现[D]. 王海涛.北京交通大学 2018
[2]基于深度学习中文分词的研究[D]. 王梦鸽.西安邮电大学 2018
[3]基于分布式框架的网络教育新闻热点话题发现研究[D]. 柳笛.天津师范大学 2018
[4]主动学习文本分类方法及其应用研究[D]. 梁昕露.福州大学 2016
[5]基于Attention-Based LSTM模型的文本分类技术的研究[D]. 张冲.南京大学 2016
[6]木棉教育新闻平台的设计与实现[D]. 刘崇.华南理工大学 2015
[7]基于HMM的教育新闻抽取与分类研究[D]. 梁吉光.南京师范大学 2012



本文编号:3260435

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3260435.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1b8c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com