基于web3.0网络爬虫自主学习技术研究
发布时间:2017-03-23 00:02
本文关键词:基于web3.0网络爬虫自主学习技术研究,由笔耕文化传播整理发布。
【摘要】:互联网已经发展到web2.0时代,并且开始迈向web3.0,搜索引擎已经成为人们从互联网上获取信息不可替代的渠道。在这种时代背景下,如何更有效的利用搜索引擎,发掘更有价值或者特定领域的信息是摆在眼前的问题。本系统就是在这种背景下研究如何获取客户来源渠道以及特定客户信息。 本系统是销售团队智能管理系统中的子模块,,是专门为该销售系统里的客户查找模块提供客户资源的。该模块主要功能是为用户提供来源于互联网的公司客户信息,这也是该软件与传统销售软件区别之一。传统上这些公司客户信息要么是来源于自己历年积累的客户信息,要么就是来源于网上的黄页网站(如阿里巴巴和慧聪网等),但总的来说包含的有效公司信息还是比较有限的。如今搜索引擎已经是人们获取信息最重要的来源,有效利用该资源获取信息,就显得尤为重要。如今有多种搜索引擎,对本文来说每一种搜索引擎都是从互联网获取信息的重要通道,所以本着尽可能多的获取信息渠道的目的,本文引入元搜索引擎的概念,即整合多种搜索引擎。用户在元搜索引擎上输入某个关键字,相当于在多种搜索引擎上同时输入该关键字并进行检索。本系统不仅便于用户操作,还能尽量多的搜索到用户所需要的信息。为了避免信息重复,本系统还实现了筛选过滤信息的功能。在此基础上,为了进一步得到更多的客户信息,本文利用用户输入的关键字进行扩展处理。本文利用了知网这一本体对搜索的领域关键词领域进行统一建模。本体是表示领域知识的代表,也是语义网中的重要部分,语义网被认为是新一代网络,即web3.0,本文在研究web3.0的搜索引擎上如何获取用户所需要的信息进行了探索。本文的研究还包括搜索引擎上爬取信息的工具—网络爬虫(也叫网络蜘蛛)。通过网络爬虫爬取完搜索引擎上公司相关信息大致分为三类:公司网站信息、平台网站信息和无关项信息。其中公司网站信息是我们需要的,平台信息是部分需要的,最后的无关项信息是直接可以忽略掉的。为了把网络爬虫得到的网站信息分成上述三类信息,本文采用了文本分类领域经常使用的算法,朴素贝叶斯算法和K最近邻算法(KNN)。根据上述两种算法思想,首先进行文本预处理,即把半结构化数据转换为结构化数据,这里主要利用IKAnalyzer包的中文的分词处理过程为主。之后就要统计每个中文词语在某个类(即上述三个类)里出现的频次、该类里包含的中文词语总数和训练样本中所有中文词语的总数。为了适应KNN算法,还需要计算每个文档的TF*IDF值,即词频和逆文档频率之积。然后对文本预处理过的数据进行随机的测试集和训练集划分,即针对特征词进行训练集和测试集的划分。随后把训练集数据用在上述算法公式进行训练,最后使用测试集数据再验证算法的分类效果。 通过分析上述理论实现出来的分类算法的效果,本文在特定领域搜索知识上取得了较好的结果,其算法分类出来的平均精确度超过80%,基本能满足需求,并且能延伸和借鉴到其他以爬取互联网相关信息为研究的课题上。
【关键词】:web3.0 网络爬虫 本体 K邻近算法 朴素贝叶斯算法
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 绪论10-14
- 1.1 本文来源及研究意义10-11
- 1.2 本文面临的研究难点11-12
- 1.3 本文主要工作12
- 1.4 本文组织结构12-14
- 第二章 基于 web 3.0 的关键词扩展技术14-21
- 2.1 web 3.0 含义14-15
- 2.2 语义网15-18
- 2.2.1 语义网概念15-16
- 2.2.2 语义网体系架构16-18
- 2.3 本体18-19
- 2.3.1 本体的来历18
- 2.3.2 本体建模18-19
- 2.3.3 本体分类19
- 2.4 基于本体的关键词扩展19-21
- 第三章 面向元搜索的网络爬虫21-30
- 3.1 网络爬虫概念21
- 3.2 网络爬虫的爬取策略21-23
- 3.3 网络爬虫体系结构23-26
- 3.4 网络爬虫的工具或程序26-28
- 3.5 元搜索网络爬虫28-30
- 第四章 网页分类算法30-35
- 4.1 朴素贝叶斯算法概述30-31
- 4.2 KNN 算法概述31-32
- 4.3 网页分类算法32-35
- 第五章 基于 web3.0 网络爬虫自主学习系统的实现及效果35-51
- 5.1 系统设计与实现35-47
- 5.1.1 基于 HOWNET 关键词扩展36-39
- 5.1.2 基于元搜索的网络爬虫工具39-42
- 5.1.3 分类算法设计42-47
- 5.2 实验样本数据来源47-49
- 5.3 实现效果49-51
- 第六章 总结与展望51-53
- 6.1 总结51
- 6.2 展望51-53
- 参考文献53-55
- 作者简介55-56
- 致谢56
【参考文献】
中国期刊全文数据库 前10条
1 李湘媛;;Web3.0时代互联网发展研究[J];中国传媒大学学报(自然科学版);2010年04期
2 张耀天;何正友;赵静;张鹏;李明;桂建廷;;基于粗糙集理论和朴素贝叶斯网络的电网故障诊断方法[J];电网技术;2007年01期
3 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
4 李勇;韩亮;;主题搜索引擎中网络爬虫的搜索策略研究[J];计算机工程与科学;2008年03期
5 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
6 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
7 汪鹏;;Ontology知识表示的艺术[J];计算机教育;2004年07期
8 杨建林;;基于本体的文本信息检索研究[J];情报理论与实践;2006年05期
9 陈向东;余锦凤;;一种基于本体的知识组织工具[J];情报理论与实践;2006年06期
10 李洁;丁颖;;语义网关键技术概述[J];计算机工程与设计;2007年08期
中国博士学位论文全文数据库 前1条
1 姜亮;基于语义网技术的机械设计方法和技术研究[D];大连理工大学;2009年
本文关键词:基于web3.0网络爬虫自主学习技术研究,由笔耕文化传播整理发布。
本文编号:262479
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/262479.html