分布式环境下企业新闻信息分类子系统的设计与实现
[Abstract]:In recent years, with the rapid development of the Internet, all kinds of news emerge in endlessly. News information plays a more and more important role in people's culture, life and other aspects. How to collect, sort out and highlight the news that people want to find is the main problem of this paper. Aiming at the problems of finding too much news information and not strong relevance to the topic in the common search engines, this paper proposes and designs an enterprise-oriented news classification subsystem. The system has the functions of news collection, information processing and news display. Enterprise users can use the system to quickly and accurately access news related to their industry. Firstly, the network crawler module is designed. The crawler software is programmed by using the breadth-first algorithm, through which the information of interest to enterprises can be collected and recognized efficiently. Secondly, the text classification module is designed and implemented. In this module, distributed Bayesian algorithm is used to classify news texts. In the process of classification, text preprocessing, feature selection and vectorization need a lot of computation, while in model training, there are many problems such as long training time and limited storage capacity of database. In order to solve the above problems, the Hadoop distributed computing platform is built, and the MapReduce parallel computing model is used to process the different stages of text classification. Hive data warehouse is established to solve the problem of occupying large storage space. When faced with a large number of new data, the traditional Bayesian method needs to re-learn all the previous sample data, which will not only consume a lot of time, but also be very troublesome to operate. In this paper, the traditional incremental learning method is cited, and an incremental Bayesian algorithm is designed and implemented. The method does not need to retrain the data, but only needs to modify the original data. Finally, a classification subsystem for enterprise news information is designed, which includes information collection, text preprocessing, feature extraction, classifier construction, classification performance evaluation and incremental learning. Several module functions of the system are tested. This system uses crawler to obtain news information, and classifies news information under Hadoop environment. The test results show that the accuracy of Hadoop incremental classifier is about 4% higher than that of the traditional Bayesian classifier under the condition of large-scale news information. It shows good execution efficiency and high expansibility. This paper gives the implementation scheme of network news text classification, which can be used for reference in other fields.
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;TP391.1
【相似文献】
相关期刊论文 前10条
1 杨静;张健沛;刘大昕;;基于多支持向量机分类器的增量学习算法研究[J];哈尔滨工程大学学报;2006年01期
2 秦玉平;王秀坤;王春立;;实现兼类样本类增量学习的一种算法[J];控制与决策;2009年01期
3 秦玉平;王秀坤;王春立;;实现兼类样本增量学习的一种算法[J];计算机应用与软件;2009年08期
4 秦玉平;陈一荻;王春立;王秀坤;;一种新的类增量学习方法[J];计算机工程与应用;2011年34期
5 时建中;程龙生;;基于增量学习系统的财务危机动态预警[J];技术经济;2012年05期
6 王洪波;赵光宙;齐冬莲;卢达;;一类支持向量机的快速增量学习方法[J];浙江大学学报(工学版);2012年07期
7 秦玉平;伦淑娴;王秀坤;;一种新的兼类样本类增量学习算法[J];计算机科学;2012年09期
8 姜卯生,王浩,姚宏亮;朴素贝叶斯分类器增量学习序列算法研究[J];计算机工程与应用;2004年14期
9 刘梅,权太范,姚天宾;基于增量学习神经模糊网络的机动目标跟踪[J];电子学报;2005年11期
10 李祥纳;艾青;秦玉平;刘卫江;;支持向量机增量学习算法综述[J];渤海大学学报(自然科学版);2007年02期
相关会议论文 前8条
1 秦亮;唐静;史贤俊;肖支才;;一种改进的支持向量机增量学习算法[A];2011年中国智能自动化学术会议论文集(第一分册)[C];2011年
2 罗长升;段建国;许洪波;郭莉;;基于拉推策略的文本分类增量学习研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 张庆彬;吴惕华;刘波;;一种改进的基于群体的增量学习算法[A];第二十六届中国控制会议论文集[C];2007年
4 张健沛;李忠伟;杨静;;一种基于多支持向量机的并行增量学习方法(英文)[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
5 王悦凯;吴晓峰;翁巨扬;;Where-What网络增量学习特性探究[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
6 赵莹;万福永;;支持向量机的增量学习算法及其在多类分类问题中的应用[A];第25届中国控制会议论文集(下册)[C];2006年
7 刘欣;章勇;王娟;;增量学习的TFIDF_NB协同训练分类算法[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 宫义山;钱娜;;贝叶斯网络结构在线学习算法及应用[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
相关博士学位论文 前4条
1 孙宇;针对含有概念漂移问题的增量学习算法研究[D];中国科学技术大学;2017年
2 李敬;增量学习及其在图像识别中的应用[D];上海交通大学;2008年
3 段华;支持向量机的增量学习算法研究[D];上海交通大学;2008年
4 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
相关硕士学位论文 前10条
1 郝运河;基于增量学习的复杂环境下道路识别算法研究[D];南京理工大学;2015年
2 李丹;基于马氏超椭球学习机的增量学习算法研究[D];渤海大学;2015年
3 赵翠翠;基于RBF神经网络的集成增量学习方法研究[D];河北工业大学;2015年
4 王会波;基于支持向量机的混合增量学习算法与应用[D];华中师范大学;2016年
5 张健;增量学习在电子鼻智能烘烤系统中的应用研究[D];重庆大学;2016年
6 曾舒如;基于多模态增量学习模型的目标物体检测方法研究[D];南昌大学;2016年
7 潘振春;基于实例的领域适应增量学习方法研究[D];南京理工大学;2017年
8 刘国欣;基于增量学习SVM分类算法的研究与应用[D];中北大学;2017年
9 杜玲;覆盖算法的增量学习研究[D];安徽大学;2010年
10 张智敏;基于增量学习的分类算法研究[D];华南理工大学;2010年
,本文编号:2206764
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2206764.html