当前位置:主页 > 科技论文 > 软件论文 >

基于机器学习的勘探门户新闻自动分类研究

发布时间:2021-08-30 11:24
  随着勘探门户新闻数据量的提升,新闻内容的复杂度增加,导致传统人工进行新闻分类的的方法效率越来越低,并且人工进行新闻分类很容易受到主观因素的影响,使得分类的准确程度不高。这种传统的人工新闻分类方法已经不能满足需求,因此,需要研究一种适用于勘探门户新闻的自动分类方法来解决现存问题。而基于机器学习的方法能够实现勘探门户新闻的自动分类,改善人工进行新闻分类的不足之处。本文深入分析了勘探门户新闻文本特点,在研究了机器学习在文本分类中关键技术的基础上,通过实验对比了几种在新闻文本分类中的常用技术,选择了一套适用于勘探门户新闻自动分类的方法,提出了基于机器学习的勘探门户新闻自动分类系统的设计思路与总体设计方案。首先对新闻文本进行预处理,然后采用CHI的方法进行特征提取,接着使用TF-IDF进行特征的权重计算,然后使用SVM分类算法来建立分类模型。本文对于中国石油勘探与分公司门户,设计并开发了基于机器学习的勘探门户新闻分类系统。通过该系统,从新闻源处获取的新闻可以自动被分类到其所属的类别中。实验结果显示,使用该分类系统对勘探门户新闻分类准确率达到了85.7%,实现了对勘探门户新闻的自动分类,提高了分类... 

【文章来源】:西安石油大学陕西省

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

基于机器学习的勘探门户新闻自动分类研究


勘探门户新闻内容界面

新闻,科技动态


图 2-3 勘探门户新闻科技动态分类新闻列表为了使勘探门户新闻分类更加准确、高效,在利用机器学习分类算法进行分类之前必须找到一种方法,将各个类别中能对该分类有很大区分度的关键词进行提取,然后使用某种加权方法对这些关键词赋予比其他关键字更高的权重。通过对加权过的关键字进行分类算法处理,可以大大提高分类的准确程度和分类效率。2.3 新闻文本数值化表示在对新闻文本的原始数据进行提取特征词等处理后,文本还是由汉字组成,计算机并不能理解其中的含义,所以无法直接处理勘探门户新闻中的词汇。为了让计算机能够理解从勘探门户收集到的词汇,我们需要将词汇信息映射到一个数值化的向量中,也可以称为文本数据的向量化。2.3.1 文本向量化概述文本向量化的粒度我们可以分为以下三种形式:

新闻,数据,文本


图 3-2 爬取的勘探门户新闻数据由于在进一步对爬取到的勘探门户新闻处理时,逐条来读取 Excel 文件效率低下,而且在处理时花费时间较大,所以把每个分类的 Excel 表格另存为 txt 格式文档, 再进行一次 UTF-8 编码进行转码,即可进行下一步的去停用词处理2.去停用词在文本预处理中,去停用词是十分重要的。在对文本中的海量数据进行处理时,由于文本中存在着大量的冗余词汇和无效的词汇以及标点符号,这会影响到数据的处理效果,因此在进行文本分析时需要将其删除,这里将这些被删除的词称之为停用词。通过网上下载常用的中文停用词表,然后分析观察勘探门户新闻文本中常出现的对分类没有意义的词,添加到停用词表中。3.消除文本噪声通过对门户新闻的观察研究,发现新闻内容的开头与结尾都有一些共同的无用信息,比如在爬取过程中加入的“页面内容”这几个字和日期信息,还有文章结尾处的记者信息,这些对文本分类并没有任何意义,属于文本噪声,如图 3-3 所示:

【参考文献】:
期刊论文
[1]基于深度学习的文本分类研究进展[J]. 刘婷婷,朱文东,刘广一.  电力信息与通信技术. 2018(03)
[2]基于概念语义相似度计算模型的信息检索研究[J]. 杨春龙,顾春华.  计算机应用与软件. 2013(06)
[3]应用HITS算法对文本聚类结果进行类别描述的可行性分析[J]. 赵悦阳,崔雷.  医学信息学杂志. 2012(12)
[4]SVM核函数对分类精度影响的研究[J]. 刘大宁,杨永乐,白林.  佳木斯大学学报(自然科学版). 2012(04)
[5]基于主题网络爬虫的高校网络信息动态搜索策略研究[J]. 王鲁荣.  四川师范大学学报(自然科学版). 2011(06)
[6]一种基于粗糙集文本自动分类的改进算法[J]. 张保富,施化吉.  计算机工程与应用. 2011(24)
[7]基于概率潜在语义分析的中文文本分类研究[J]. 王奕.  甘肃联合大学学报(自然科学版). 2011(04)
[8]国内网页去重技术研究:现状与总结[J]. 李志义,梁士金.  图书情报工作. 2011(07)
[9]SVM分类核函数及参数选择比较[J]. 奉国和.  计算机工程与应用. 2011(03)
[10]Nutch中庖丁解牛中文分词的实现与评测[J]. 孙殿哲,魏海平,陈岩.  计算机与现代化. 2010(06)

博士论文
[1]关联数据和知识表示的自动语义标注技术[D]. 谢铭.武汉大学 2012
[2]基于潜在语义分析的社会化标注系统标签语义检索研究[D]. 宣云干.南京大学 2011
[3]面向语义网的语义搜索引擎关键技术研究[D]. 史斌.北京工业大学 2010

硕士论文
[1]基于信息量的语义相似度计算方法研究[D]. 赵扬.东北师范大学 2015
[2]基于影响力的社会网络关键用户识别方法研究[D]. 田中生.吉林大学 2015
[3]Web挖掘中的HITS算法的一种改进策略[D]. 吴宗展.吉林大学 2013
[4]多特征融合的博客文章排序和分类算法研究[D]. 王芳.兰州理工大学 2012
[5]中文分词算法的研究与实现[D]. 林冬盛.西北大学 2011
[6]主题爬虫搜索策略研究[D]. 陈丛丛.山东大学 2009
[7]多类别科技文献自动分类系统[D]. 陈玉芹.华中科技大学 2008
[8]领域本体的构建及其在信息检索中的应用研究[D]. 郭嘉琦.北京邮电大学 2007
[9]基于倒排索引的全文检索技术研究[D]. 刘兴宇.华中科技大学 2004



本文编号:3372687

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3372687.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0d2c1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com