当前位置:主页 > 管理论文 > 移动网络论文 >

工业网站识别与分类系统的研究与实现

发布时间:2020-03-30 16:08
【摘要】:工业互联网是快速发展的互联网信息技术与传统工业生产模式相互融合的产物,工业互联网的出现,改善了传统的工业生产模式,使工业生产方式更具智能化。工业与互联网科技的深度融合给工业产业的发展带来机会的同时也使工业互联网产生了信息安全方面的威胁。工业网站是工业行业与互联网行业相结合的最直接的产物,工业网站的信息安全也是工业互联网信息安全的重要组成部分。工业网站的识别与分类对后续工业网站的信息安全防护工作以及工业互联网信息安全防护工作起到积极的作用。工业网站的识别与分类的研究是网站自动化分类研究下的更具体的行业分类研究。在目前的网站分类研究中很多方法是将网页内容看成研究的文本样本,直接使用文本分类技术研究网站分类。网站的分类区别于其他文本分类研究主要在于网站中包含着大量的链接和文本内容,包含了大量的噪声影响,因此使用网站内的文本需要技术处理优化。工业网站在特点上也有别于其他网站,有些工业网站和其他网站特点一样比如:厂商门户网站等,有一部分工业网站对应的是可登录的工业控制系统比如:数据采集与监控系统网站、分布式控制系统等。工业网站的分类研究既要根据工业行业分类也要根据网站的性质分类。本文在工业网站的识别与分类系统的研究中,根据工业网站的特点和工业行业类别特性主要实现了工业网站数据爬取、工业网站识别、工业网站行业与性质分类、数据存储和展示等系统功能模块。数据爬取模块使用聚爬虫技术,主要功能是获取工业网站数据爬取;识别和分类模块主要实现识别网站是否为工业网站,并根据所属工业行业和网站性质分类;数据存储和展示模块是对分类完成后的网站数据存储和可视化展示。在本系统的的核心模块识别和分类模块中使用了关键资源提取结合分词技术的识别方法,建立工业行业词典库结合基于特征词扩展的短文本分类方法研究,保证了工业网站的识别与分类系统的识别准确性,提高了系统的分类高效性。
【图文】:

系统结构图,系统结构图,网页,链接


第 2 章 相关工作的网页下载到本地存储,形成一个互联网内容的镜像备份,通用网络爬虫通从互联网中搜集网页,抓取网页信息。本文再数据获取方面主要使用了聚焦爬虫[23]技术,聚焦爬虫相比较与通用虫的应用场景和工作原理有所不同,聚焦爬虫的工作流程不仅仅是无差别的取网页内容和新的 URL,聚焦爬虫是根据一定的分析算法,分析网页结构和页文本内容过滤掉与原网页主题无关的链接,保留与原网页主题贴切的链接,对这些链接展开后续的分析和爬取。相对于通用爬虫的工作方式,聚焦爬虫要重点研究的三个特点:(1) 对爬取网页主题的定义;(2) 对爬取网页内容的分析和过滤;(3) 对 URL 爬取的搜索策略。焦爬虫的三个研究特点是聚焦爬虫爬取网页性能的关键,聚焦爬虫系统结构如图 2-1 所示:

工作流程图,数据信息,网站,网页内容


第 2 章 相关工作求,使用聚焦爬虫技术爬取根网站的网页内容,筛选网切的 URL,组成 URL 集合,保存只数据库系统中,,为后分类获取数据支撑。后续的系统研究可以查取对应的 U块获取对应的网站的内容,对网站内的文本进行识别和的识别和分类系统中聚焦爬虫模块的工作流程图,如图
【学位授予单位】:辽宁大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP393.092;TP391.3

【相似文献】

相关期刊论文 前10条

1 王丽丽;陈雯嫣;戴天;;《我的网站我设计》微课程教学设计[J];中国信息技术教育;2017年Z1期

2 栗辉;唐萌;陈豪;;基于用户行为分析的网站结构优化研究综述[J];计算机科学;2016年S1期

3 王春艳;张彦芳;;网站结构规划探讨[J];东方企业文化;2013年04期

4 徐t;;谈网站结构优化技术研究进展[J];东方企业文化;2010年03期

5 奚冬芹;林文龙;竺炯林;;基于隐马尔可夫模型的电子商务网站结构优化[J];计算机应用研究;2009年03期

6 朱英;瞿有利;陈谊;孙悦红;;信息抽取中网站结构树生成方法的研究[J];北京工商大学学报(自然科学版);2006年05期

7 ;建立网站的基础工作——定义网站结构[J];上海微型计算机;1999年39期

8 王有为,汪定伟;基于关联系数的电子超市网站结构优化模型及算法复杂性分析[J];小型微型计算机系统;2004年04期

9 于华;;网站结构优化方案的设计与实现[J];现代计算机(专业版);2017年20期

10 井福荣;谢辅雯;;关联规则在网站结构优化中的改进算法[J];计算机系统应用;2007年01期

相关会议论文 前2条

1 何焱;;关于公共图书馆网站结构和交互性探讨[A];公共文化服务与图书馆实践的创新——浙江省图书馆学会第十次学术研讨会论文集[C];2006年

2 胡汉杰;;办好中国聚合物网,搭建高分子学-产-市场沟通的桥梁[A];2005年全国高分子学术论文报告会论文摘要集[C];2005年

相关重要报纸文章 前10条

1 雨凡;政府网站“高质量”乃大势所趋[N];中国人口报;2018年

2 刘安;档案期刊与网络相互强身[N];中国档案报;2003年

3 飘零剑客;网站结构和页面规划[N];中国电脑教育报;2004年

4 肖克永 王重阳 沙艳秋;市总网络工作全省推广[N];镇江日报;2010年

5 ;中小企业步入“无纸”商务[N];中国工商报;2000年

6 ;三网合一沟通无限[N];中国电脑教育报;2003年

7 ;机构这么多,有何区别?青少年编程国内各机构体验报告[N];电脑报;2018年

8 ;Caw 4~7层测试方案[N];网络世界;2002年

9 朱春雷;Wiki实现知识共享[N];计算机世界;2006年

10 方微;Web2.0企业化应用 员工间协同的解决之道[N];通信信息报;2006年

相关硕士学位论文 前10条

1 葛尧;工业网站识别与分类系统的研究与实现[D];辽宁大学;2019年

2 陈志宇;社会化问答网站辟谣功能研究[D];中南民族大学;2018年

3 杜华;电子商务网站结构优化模型与算法研究[D];首都师范大学;2009年

4 唐明慧;基于多目标模型的电子商务网站结构优化研究[D];沈阳大学;2013年

5 孙晓磊;基于WEB挖掘的网站结构优化研究[D];电子科技大学;2011年

6 刘明鸣;基于Web使用挖掘的网站结构优化技术研究[D];电子科技大学;2016年

7 李亮;基于WEB挖掘的网站结构优化技术研究[D];西北师范大学;2012年

8 奚冬芹;基于WEB使用挖掘的电子商务网站结构优化[D];合肥工业大学;2009年

9 余智学;基于Web会话仿真的网站结构优化研究[D];合肥工业大学;2008年

10 韩佳;基于禁忌搜索算法的网站链接结构优化方法研究[D];杭州电子科技大学;2015年



本文编号:2607759

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2607759.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户15b49***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com