面向Web挖掘的主题网络爬虫的研究与实现
本文选题:Web挖掘 切入点:主题网络爬虫 出处:《西安电子科技大学》2012年硕士论文
【摘要】:随着互联网的迅速发展,越来越多的信息资源以网络为媒介呈现在人们面前,而通过搜索引擎获取生活、生产所需的信息资料也开始成为人们掌握资讯的主流方式之一。但是由于Web信息资源的爆炸式增长及其半结构化、实时性、异构性和离散性等的特点,如何对Web资源进行挖掘分析、提取人们需要的特定主题的信息,已经成为一项重要的研究课题。 本文的研究内容是基于企业竞争情报、面向Web挖掘的主题式搜索,在介绍了课题的研究背景和现状之后,着重讨论了Web挖掘和主题搜索引擎的核心技术。具体的研究工作如下: 主题网络爬虫:综合分析了现有搜索引擎的网络搜索算法,改进了相关的搜索策略,提出了一种非贪婪遗传搜索算法。 Web文档分析:本文利用HTML Tidy工具将Web文档转换为其对应的树型结构,然后根据用户的需求利用不同的遍历算法提取相关的信息;爬虫系统对网页的正文内容进行提取和分词之后,,采用经过改进的特征项权重计算方法建立文本的特征向量。 主题相关性评价:在利用向量空间模型对网页正文内容进行主题相关性评价的基础上,系统结合超链接的锚文本、自身字符串和它所在的网页对其进行了主题相关性的计算。 在以上研究内容的基础上,设计并实现了基于企业竞争情报的主题网络爬虫系统。
[Abstract]:With the rapid development of the Internet, more and more information resources appear in front of people through the network, and get life through the search engine. But due to the explosive growth of Web information resources and its characteristics of semi-structured, real-time, heterogeneity and discreteness, and so on, the production of information materials has become one of the main methods of people to master information, but due to the explosive growth of Web information resources and its characteristics of semi-structured, real-time, heterogeneity and discreteness. How to mine and analyze Web resources and extract the information of specific topics that people need has become an important research topic. The research content of this paper is based on enterprise competitive intelligence, the topic search oriented to Web mining, after introducing the research background and present situation of the subject, The core technologies of Web mining and subject search engine are discussed emphatically. The specific research work is as follows:. Topic crawler: a non-greedy genetic search algorithm is proposed by synthetically analyzing the existing search engine network search algorithms and improving the relevant search strategies. Web document analysis: this paper uses HTML Tidy tools to transform Web document into its corresponding tree structure, and then uses different traversal algorithms to extract relevant information according to the user's needs. After extracting and segmenting the text of the web page, the improved method of calculating the weight of the feature item is used to establish the feature vector of the text. Subject relevance evaluation: on the basis of the vector space model to evaluate the theme correlation of the text of the web page, combining the anchor text of the hyperlink, its own string and the web page in which it is located, the theme correlation is calculated. On the basis of the above research, a subject web crawler system based on enterprise competitive intelligence is designed and implemented.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
2 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
3 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
4 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
5 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
6 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
7 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
8 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
9 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
10 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
相关会议论文 前10条
1 陶冶;刘建勋;唐明董;;基于Map/Reduce的分布式Web服务搜索引擎设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 安伦;周斌;贾焰;;在线Web挖掘中的计算资源动态平衡[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
4 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
5 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
8 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
9 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
10 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
相关重要报纸文章 前10条
1 赵晓涛;Web安全 服务为王[N];网络世界;2008年
2 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
3 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
4 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
5 闫冰;“推”出Web交付新天地[N];网络世界;2009年
6 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
7 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
8 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
9 ;Web2.0工具使用须谨慎[N];网络世界;2009年
10 Anchiva中国区总经理 李松;Web安全选型三个标准[N];网络世界;2008年
相关博士学位论文 前10条
1 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
2 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
8 陈世展;服务网络:基于语义和社会化关系的Web服务计算基础设施[D];天津大学;2010年
9 胡佳;语义Web服务自动组合及验证的研究[D];天津大学;2010年
10 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
相关硕士学位论文 前10条
1 周浩;面向网络舆情分析的Web数据源获取关键技术研究[D];西安理工大学;2010年
2 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
3 侯晓帆;基于云计算的Web教育爬虫[D];东北师范大学;2011年
4 刘永信;主题搜索与Web挖掘的研究及系统实现[D];西安电子科技大学;2009年
5 杨新英;基于网络爬虫的Web应用程序漏洞扫描器的研究与实现[D];电子科技大学;2010年
6 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
7 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
8 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
9 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
10 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
本文编号:1664713
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1664713.html