基于Spark的新闻网页分类系统的设计与实现
本文选题:网页分类 + 网页结构信息 ; 参考:《北京邮电大学》2017年硕士论文
【摘要】:互联网的发展日新月异。时至今日,互联网已经成为一个完善的庞大的系统,其中的信息不仅数量巨大,而且实时性好。互联网的这些优点使得我们越来越依赖互联网去获取外界信息。但是因为互联网的开放性和异构性,网络信息纷繁复杂,而从如此大量而缺乏规律的网络信息中很难准备地找到需要的信息。另外,很多时候希望过滤某些类别的网页。网页分类技术是一种解决以上问题的有效方法,该技术对互联中的网页进行统一的组织和处理以达到用户使用便捷化和资源利用高效化的目的。本文对传统网页分类整个流程进行了较为深入的研究,对其中的网页信息提取、特征选择、特征项权值计算、分类方法进行了研究和分析。在此基础上所做的主要工作有:1)针对以往网页分类方法中忽略文本语义层次信息的缺陷,引入主题模型,提出基于向量空间模型结合主题模型的分类方法,分别使用改进的方法和传统的方法在相同的数据集合上进行对比实验,实验结果显示引入LDA模型后,在所有类别上分类效果都有提升。2)针对以往网页分类方法中忽略网页的结构信息的缺陷,基于网页结构信息对TF-IDF进行改进,对相同的数据集分别使用传统的TF-IDF和改进的TF-IDF向量化文本,使用相同的SVM分类方法进行对比实验,实验结果显示考虑网页结构信息后会提升分类效果。3)针对以往网页分类中将网页当作孤立对象处理,不考虑网页间联系的缺陷,使用网页关系信息对随机森林方法进行改进,设计实验证明了改进的随机森林比原始的随机森林方法分类效果更佳。4)在理论研究的基础上,实现了一个基于Spark的网页分类系统,主要模块包括网页爬取模块、网页预处理模块和网页分类模块。
[Abstract]:The development of the Internet is changing with each passing day. Today, the Internet has become a complete huge system, in which the amount of information is not only huge, but also real-time. These advantages of the Internet make us rely more and more on the Internet to obtain external information. However, because of the openness and heterogeneity of the Internet, the network information is complicated, and it is difficult to find the needed information from such a large number of and lack of regular network information. In addition, there are times when you want to filter certain categories of pages. Web page classification technology is an effective method to solve the above problems. It organizes and processes web pages in interconnection in a unified way to achieve the purpose of user convenience and high efficiency of resource utilization. In this paper, the whole process of traditional web page classification is deeply studied, and the web page information extraction, feature selection, feature item weight calculation and classification method are studied and analyzed. The main work done on this basis is: (1) aiming at the defect of neglecting the semantic level information of text in the previous web page classification methods, a topic model is introduced, and a classification method based on vector space model and topic model is proposed. The improved method and the traditional method are used to compare the same data set. The experimental results show that the LDA model is introduced. The classification effect in all categories is improved. 2) aiming at the defect of ignoring the structural information of web pages in the previous methods of web page classification, the TF-IDF is improved based on the structure information of the web pages. For the same data set, the traditional TF-IDF and the improved TF-IDF vectorized text are used respectively, and the same SVM classification method is used to carry on the contrast experiment. The experimental results show that considering the structure information of web pages will improve the classification effect. 3) aiming at the disadvantages of treating web pages as isolated objects and not considering the relationship between web pages, the random forest method is improved by using web pages' relational information. The experimental results show that the improved random forest classification method is better than the original random forest method. Based on the theoretical research, a web page classification system based on Spark is implemented. The main modules include the web crawling module. Page preprocessing module and web page classification module.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【参考文献】
相关期刊论文 前10条
1 李玮;;Apache Spark技术研究与应用前景分析[J];电信技术;2016年09期
2 ;CNNIC发布第37次《中国互联网络发展状况统计报告》[J];国家图书馆学刊;2016年02期
3 赵本本;殷旭东;王伟;;基于Scrapy的GitHub数据爬虫[J];电子技术与软件工程;2016年06期
4 潘澄;;基于领域向量模型的新闻网页分类算法[J];软件导刊;2015年07期
5 张永;孟晓飞;;基于投影寻踪的kNN文本分类算法的加速策略[J];科学技术与工程;2014年36期
6 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
7 覃世安;李法运;;文本分类中TF-IDF方法的改进研究[J];现代图书情报技术;2013年10期
8 任永功;杨荣杰;尹明飞;马名威;;基于信息增益的文本特征选择方法[J];计算机科学;2012年11期
9 薛永大;;网页分类技术研究综述[J];电脑知识与技术;2012年25期
10 徐峻岭;周毓明;陈林;徐宝文;;基于互信息的无监督特征选择[J];计算机研究与发展;2012年02期
相关硕士学位论文 前5条
1 光顺利;基于Spark的文本分类的研究[D];长春工业大学;2016年
2 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年
3 张东晋;基于单事件新闻多文档聚类及自动文摘的设计与实现[D];厦门大学;2014年
4 曹桂锋;搜索引擎中网页分类和网页净化的研究与实现[D];武汉理工大学;2013年
5 刘春刚;基于文本挖掘的计算机漏洞自动分类技术[D];上海交通大学;2013年
,本文编号:1838202
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1838202.html