网页信息智能采集与分类的研究与实现
本文选题:信息采集 + 信息抽取 ; 参考:《河北工业大学》2014年硕士论文
【摘要】:随着科学技术的飞速发展,我们已经进入了数字信息化时代。Internet作为当今世界上最大的信息库,也成为人们获取信息的最主要手段。由于网络上的信息资源有着海量、动态、异构、半结构化等特点,且缺乏统一的组织和管理,所以如何快速、准确地从海量的信息资源中寻找到自己所需的信息己经成为网络用户需要迫切解决的一大难题。因而基于Web的网络信息的采集与分类便成为人们研究的热点。 传统的Web信息采集的目标就是尽可能多地采集信息页面,,甚至是整个Web上的资源,在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这就使得所采集页面的内容过于杂乱,大大消耗了系统资源和网络资源。这就需要采用有效的采集方法以减少采集网页的杂乱和重复等情况的发生。如何在较大程度上解决信息杂乱无章的现象,并方便用户准确地定位所需要的信息,仅靠人工的方式来分类是不切实际的。因此,网页自动分类是组织和管理信息的有效手段。这也是本文研究的一个重要内容。 本文首先介绍了课题背景、研究意义和国内外的研究现状,阐述了网页采集和网页分类的相关理论、主要技术和算法,包括网页爬虫技术、网页去重技术、中文分词技术、特征提取技术、网页分类技术等。在此基础上,设计了网页信息智能采集与分类系统,本系统主要包括信息采集和信息分类两部分。信息采集部分,主要采用了基于主题的广度优先策略算法的网络爬虫和基于规则模板的网页信息抽取方法,把自由或者半结构化的数据转换成结构化的数据,同时采用基于数据库的信息排重和发布排重方法对信息进行排重。信息分类部分,根据用户的需求,通过采用分词和特征提取等技术相结合的SVM算法对信息进行分类,为用户提供全方位的信息服务。
[Abstract]:With the rapid development of science and technology, we have entered the digital information age. Internet, as the largest information base in the world today, has also become the most important means for people to obtain information. Because the information resources on the network have the characteristics of massive, dynamic, heterogeneous, semi-structured, and lack of unified organization and management, so how to quickly, It has become an urgent problem for network users to find the information they need from the massive information resources. Therefore, the collection and classification of network information based on Web has become a hot topic. The goal of traditional Web information collection is to collect as many information pages as possible, even the resources on the whole Web. In this process, it does not pay much attention to the order of collection and the related topics of the collected pages. This makes the content of the collected pages too messy, and consumes the system resources and network resources. It is necessary to adopt effective collection methods to reduce the clutter and repetition of web pages. It is impractical to classify the information in a manual way only by how to solve the disorder of information to a large extent and to locate the information accurately and conveniently. Therefore, the automatic classification of web pages is an effective means to organize and manage information. This is also an important part of this study. This paper first introduces the background of the subject, the significance of the research and the current research situation at home and abroad, and expounds the relevant theories, main techniques and algorithms of web page collection and classification, including web crawler technology, web page de-reduplication technology, Chinese word segmentation technology, etc. Feature extraction technology, web page classification technology and so on. On this basis, an intelligent web information collection and classification system is designed. The system mainly includes two parts: information collection and information classification. In the part of information collection, we mainly adopt the method of web crawler based on topic breadth-first strategy and web page information extraction based on rule template to transform free or semi-structured data into structured data. At the same time, the information weight based on database and the method of publishing weight are used to calculate the weight of the information. In the part of information classification, according to the needs of users, the SVM algorithm which combines word segmentation and feature extraction is used to classify the information to provide users with comprehensive information services.
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 松涛;“吸”尽网络中有用的网页信息[J];电脑知识与技术;2004年13期
2 朱精南,赵明生;网页版面信息分析[J];计算机工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于语义Web的网页推荐模型[J];清华大学学报(自然科学版);2004年09期
4 王海燕;张正凯;任建浩;;从审美角度浅谈网页艺术设计[J];中国电化教育;2004年09期
5 贾海龙,任玉珍;网页艺术设计[J];新乡师范高等专科学校学报;2005年05期
6 刘肖冰;浅谈网页艺术设计[J];安阳师范学院学报;2005年05期
7 孙迎春;;网页设计研究[J];南平师专学报;2005年03期
8 文涛;网页的视觉传达设计与分析[J];沈阳教育学院学报;2005年01期
9 宋春晖;网页设计中的美学应用分析[J];海南师范学院学报(自然科学版);2005年01期
10 张秀虎;;浅谈网页的访问权限[J];教育信息化;2005年17期
相关会议论文 前10条
1 韩近强;赵静;杨冬青;唐世渭;姚小波;;基于领域知识的网页筛选系统[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
2 昝红英;苏玉梅;孙斌;俞士汶;;基于浅层分析的网页相关度研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 孙静;刘正捷;奚小玲;王慧;;帮助盲人理解网页信息的一种网页结构划分方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 曹淮;晁丁丁;;3D元素在网页信息传达中的应用研究[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 吴建军;;谈网页设计的艺术性表现[A];经天纬地——全国测绘科技信息网中南分网第十九次学术交流会优秀论文选编[C];2005年
6 唐超;刘辰;杨正球;;使用多层迭代分析和分类网页文档的方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
7 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 罗阳;季铎;张桂平;王莹莹;;面向单一网页的双语资源挖掘方法[A];第六届全国信息检索学术会议论文集[C];2010年
9 于满泉;谭松波;许洪波;;网页内部结构挖掘技术研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
10 王宇;黄炜;肖艳芹;任建立;李天柱;;ORBASE用于基于内容的Web查询[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
相关重要报纸文章 前10条
1 本报记者 曾居仁 通讯员 郝金荣;贵州“万村千乡”网页工程开辟为农服务新渠道[N];中国气象报;2012年
2 壮壮;批量保存网页信息[N];电脑报;2004年
3 罗震宇 严小斌;一种新型WEB开发技术的探讨[N];中国冶金报;2011年
4 钱鹏;网尽Web页中的好东东[N];电脑报;2004年
5 星之海洋;迈出网页制作的第一步[N];电脑报;2004年
6 河南 张金贵;FrontPage2000组件详解(四)[N];电脑报;2001年
7 枫尔;网站浏览提速的五大秘方[N];中国证券报;2004年
8 飘零剑客;网络监控利器——AnyView[N];中国电脑教育报;2004年
9 八戒;眨眼之间 答案立现[N];电脑报;2013年
10 ;网络应用 天龙八“步” 申请上网账号[N];电脑报;2002年
相关博士学位论文 前10条
1 陈洁;基于概念融合的网页筛选技术研究[D];北京邮电大学;2013年
2 孙建涛;Web挖掘中的降维和分类方法研究[D];清华大学;2005年
3 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
4 徐晴阳;基于关系子群发现算法的聚焦爬行技术[D];吉林大学;2008年
5 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
6 刘馨月;Web挖掘中的链接分析与话题检测研究[D];大连理工大学;2012年
7 罗娜;基于本体的主题爬行技术研究[D];吉林大学;2009年
8 张勇实;基于链接相似性分析的WEB结构挖掘方法研究[D];哈尔滨工程大学;2012年
9 宗校军;中文网页定题采集及分类研究[D];华中科技大学;2006年
10 余伟;基于用户个性挖掘的Web社区营销研究[D];武汉大学;2011年
相关硕士学位论文 前10条
1 高文梁;改进的基于历史信息分析的网页排序算法[D];大连理工大学;2009年
2 刘辉;网页信息过滤系统的研究与设计[D];苏州大学;2009年
3 赵胤;海量网页搜集系统的设计[D];东北大学 ;2009年
4 罗永莲;突发事件语料噪声排除与网页去重方法研究[D];山西大学;2005年
5 黄永光;基于网页挖掘的搜索引擎若干技术的研究[D];哈尔滨工业大学;2006年
6 张超群;基于网页分块技术的主题爬行[D];吉林大学;2007年
7 张雅洁;网页视觉基础设计与应用研究[D];东北师范大学;2007年
8 黄文蓓;基于网页分割和摘要的小屏幕设备网页自适应技术研究与实现[D];华东师范大学;2008年
9 刘华晖;需求概念图导引下的网页检索结果分析[D];上海交通大学;2011年
10 程欢;网页中动态色彩及其情感可视化研究[D];哈尔滨工业大学;2011年
本文编号:1789849
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1789849.html