当前位置:主页 > 科技论文 > 搜索引擎论文 >

分布式环境下企业新闻信息分类子系统的设计与实现

发布时间:2018-08-27 09:03
【摘要】:近年来,随着互联网的迅猛发展,各种各样的新闻层出不穷,新闻信息在人们的文化、生活等各个方面发挥着越来越重要的作用。如何对大量的新闻数据进行收集、整理,并突显出人们想要查找的新闻,是本文研究的主要问题。针对目前常见的搜索引擎存在着查找到的新闻信息过多,与主题关联性不强等问题,本文提出并设计了一个面向企业的新闻分类子系统。该系统具备新闻采集、信息处理及新闻展示等功能。企业用户可以利用该系统快速、准确地获取与其行业相关的新闻。首先,系统设计了网络爬虫模块。使用广度优先算法编写了爬虫软件,通过该软件可以实现对企业感兴趣新闻信息高效的采集与识别。其次,设计并实现了文本分类模块。在该模块中,使用分布式贝叶斯算法对新闻文本进行分类。在分类过程中,文本的预处理、特征选择以及向量化需要大量计算;在模型训练时,也存在着训练时间长、数据库存储容量有限等问题。为了解决以上问题,本文搭建了 Hadoop分布式计算平台,利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行处理,并建立Hive数据仓库以解决占用存储空间大的问题。当面临大量新增数据时,传统的贝叶斯方法需要将之前的所有样本数据全部重新学习一次,这样不仅会耗费大量时间,而且操作起来也相当麻烦。针对这种情况,本文引用了传统的增量学习方法,设计并实现了增量式贝叶斯算法,该方法不用重新训练数据,只需对原有的数据进行修正。最后设计了一个面向企业新闻信息的分类子系统,主要包括信息采集、文本预处理、特征提取、分类器构造、分类性能评估和增量学习几个流程,并对系统的几个模块功能进行了测试。本系统利用爬虫进行新闻信息的获取,并在Hadoop环境下对新闻信息进行分类。通过测试表明,在大规模新闻信息的情况下,Hadoop下的增量分类器相比于传统的贝叶斯分类器算法准确率提高4%左右,表现出了良好的执行效率及较高的拓展性。本文给出了网络新闻文本分类的实现方案,对其它领域的文本分类具有借鉴意义。
[Abstract]:In recent years, with the rapid development of the Internet, all kinds of news emerge in endlessly. News information plays a more and more important role in people's culture, life and other aspects. How to collect, sort out and highlight the news that people want to find is the main problem of this paper. Aiming at the problems of finding too much news information and not strong relevance to the topic in the common search engines, this paper proposes and designs an enterprise-oriented news classification subsystem. The system has the functions of news collection, information processing and news display. Enterprise users can use the system to quickly and accurately access news related to their industry. Firstly, the network crawler module is designed. The crawler software is programmed by using the breadth-first algorithm, through which the information of interest to enterprises can be collected and recognized efficiently. Secondly, the text classification module is designed and implemented. In this module, distributed Bayesian algorithm is used to classify news texts. In the process of classification, text preprocessing, feature selection and vectorization need a lot of computation, while in model training, there are many problems such as long training time and limited storage capacity of database. In order to solve the above problems, the Hadoop distributed computing platform is built, and the MapReduce parallel computing model is used to process the different stages of text classification. Hive data warehouse is established to solve the problem of occupying large storage space. When faced with a large number of new data, the traditional Bayesian method needs to re-learn all the previous sample data, which will not only consume a lot of time, but also be very troublesome to operate. In this paper, the traditional incremental learning method is cited, and an incremental Bayesian algorithm is designed and implemented. The method does not need to retrain the data, but only needs to modify the original data. Finally, a classification subsystem for enterprise news information is designed, which includes information collection, text preprocessing, feature extraction, classifier construction, classification performance evaluation and incremental learning. Several module functions of the system are tested. This system uses crawler to obtain news information, and classifies news information under Hadoop environment. The test results show that the accuracy of Hadoop incremental classifier is about 4% higher than that of the traditional Bayesian classifier under the condition of large-scale news information. It shows good execution efficiency and high expansibility. This paper gives the implementation scheme of network news text classification, which can be used for reference in other fields.
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP391.1

【相似文献】

相关期刊论文 前10条

1 杨静;张健沛;刘大昕;;基于多支持向量机分类器的增量学习算法研究[J];哈尔滨工程大学学报;2006年01期

2 秦玉平;王秀坤;王春立;;实现兼类样本类增量学习的一种算法[J];控制与决策;2009年01期

3 秦玉平;王秀坤;王春立;;实现兼类样本增量学习的一种算法[J];计算机应用与软件;2009年08期

4 秦玉平;陈一荻;王春立;王秀坤;;一种新的类增量学习方法[J];计算机工程与应用;2011年34期

5 时建中;程龙生;;基于增量学习系统的财务危机动态预警[J];技术经济;2012年05期

6 王洪波;赵光宙;齐冬莲;卢达;;一类支持向量机的快速增量学习方法[J];浙江大学学报(工学版);2012年07期

7 秦玉平;伦淑娴;王秀坤;;一种新的兼类样本类增量学习算法[J];计算机科学;2012年09期

8 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期

9 刘梅,权太范,姚天宾;基于增量学习神经模糊网络的机动目标跟踪[J];电子学报;2005年11期

10 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期

相关会议论文 前8条

1 秦亮;唐静;史贤俊;肖支才;;一种改进的支持向量机增量学习算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年

2 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

3 张庆彬;吴惕华;刘波;;一种改进的基于群体的增量学习算法[A];第二十六届中国控制会议论文集[C];2007年

4 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

5 王悦凯;吴晓峰;翁巨扬;;Where-What网络增量学习特性探究[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年

6 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年

7 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年

8 宫义山;钱娜;;贝叶斯网络结构在线学习算法及应用[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年

相关博士学位论文 前4条

1 孙宇;针对含有概念漂移问题的增量学习算法研究[D];中国科学技术大学;2017年

2 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年

3 段华;支持向量机的增量学习算法研究[D];上海交通大学;2008年

4 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年

相关硕士学位论文 前10条

1 郝运河;基于增量学习的复杂环境下道路识别算法研究[D];南京理工大学;2015年

2 李丹;基于马氏超椭球学习机的增量学习算法研究[D];渤海大学;2015年

3 赵翠翠;基于RBF神经网络的集成增量学习方法研究[D];河北工业大学;2015年

4 王会波;基于支持向量机的混合增量学习算法与应用[D];华中师范大学;2016年

5 张健;增量学习在电子鼻智能烘烤系统中的应用研究[D];重庆大学;2016年

6 曾舒如;基于多模态增量学习模型的目标物体检测方法研究[D];南昌大学;2016年

7 潘振春;基于实例的领域适应增量学习方法研究[D];南京理工大学;2017年

8 刘国欣;基于增量学习SVM分类算法的研究与应用[D];中北大学;2017年

9 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年

10 张智敏;基于增量学习的分类算法研究[D];华南理工大学;2010年



本文编号:2206764

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2206764.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0fe43***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com