基于网络爬虫互联网涉税信息采集系统设计与实现
发布时间:2021-07-10 16:35
随着社会信息化的快速发展,税收数据已经逐步形成大集中,纳税人图像、音视频等行为数据的采集,已经逐步向外部门、第三方数据延伸。税务行业“大数据”的时代已经来临,数据从原来应用系统产生的一种附属物,变成了有价值的资产。大数据时代,谁能掌握好数据、谁能利用好数据,谁就能提高洞察力、占领制高点。面对日益增长的海量数据资产,制定统一的数据管理战略和数据管理体系,理清数据管理思路,明确数据管理职责,拓展数据应用范围,提升数据应用质量,确保数据资产得到系统、高效、安全的管理,更好地服务领导决策、服务纳税人办税、服务基层税收征管、服务经济社会发展,已经成为税务部门迫切需要面对并加以研究的重要课题。为了有效应对上述变革,税务部门迫切需要加强统筹协调,通过建设全局型的税务大数据应用管理平台,全面规范涉税数据管理,真正把税务部门海量数据的“金山银库”潜能挖掘出来、效益发挥出来。而互联网作为一个很有价值的信息来源,它提供了多种类型和形式的信息,但在海量的数据信息中,如何抓取涉及到税务相关的信息是一个难题。当然,可以手动收集这些与税收相关的数据,并且可以根据预定格式对从因特网收集的各种信息进行分类和转换。在互联...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
网络爬虫工作流程图
所以这类爬虫通常采用并行工作方式 虽然通用网络爬,但它适用于为搜索引擎搜索广泛的主题,有较强的应用价值[13]最常用的爬行策略主要有深度优先策略和广度优先策略这两种,种策略的工作原理做说明 深度优先策略[14]:此方法基于深度从低到高的顺序,从起始页开一级网页链接,直到处理该分支上的链接为止 在完成爬行分支之到最后一个链接节点,以便进一步搜索其他链接 当遍历所有链接结束 这种策略更适合垂直搜索或站内搜索,但在抓取内容更深的巨大的资源浪费 广度优先策略[15]:此策略根据 Web 内容目录内容的深度抓取页面录中的页面首先被抓取 当同一级别的页面爬行完成时,爬虫深入爬行 这种策略可以有效地控制页面的爬行深度和避免爬行时遇到问题 便于实现,并且不需要存储大量中间节点 缺点是需要较长到更深的目录页 用爬虫架构如图 2-2
第二章 相关理论及技术主题网络爬虫网络爬虫[12] [16](Topical Crawler),根据它的工作特性,有些学网络爬虫(Focused Crawler),它只选择与原先设定好的和主题行,无关的则忽略掉 与一般的网络爬虫相比,聚焦爬虫只选面进行爬行,这样提高了爬行的效率,也节省了资源 因此更们在某些信息领域的需求 首先要做的是评估 Web 的内容和链重要性对它们进行排列 相对于其它的传统爬虫,主题爬虫多价内容和链接这两个模块 通过页面解析后,爬虫可以把没有去 当然,针对主题相关,评估模块进行了链接排序,并且去链接 但是,这个还是远远不够的,所以有必要在进入在数据入所提取的页面是和主题相关的,还必须通过评价模块对已经抓进一步的分析 主题爬虫通常有四种评价策略:基于链接分析基于语境图 基于增强学习,图 2-3 是主题网络爬虫的架构图
【参考文献】:
期刊论文
[1]一种基于端到端的HTTP业务关联方法[J]. 叶青,张守懿,郑进一,李路艳. 信息通信. 2018(07)
[2]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[3]网络爬虫技术原理[J]. Kevin. 计算机与网络. 2018(10)
[4]大数据环境下的网络爬虫设计[J]. 郭丽蓉. 山西电子技术. 2018(02)
[5]基于语义相似聚合的主题爬虫算法研究[J]. 吴林,王永滨. 中国传媒大学学报(自然科学版). 2018(01)
[6]基于Na?ve Bayes和TF-IDF的真假新闻分类[J]. 蔡扬,付小斌. 电脑知识与技术. 2018(04)
[7]基于网络爬虫的新浪微博数据获取方式研究[J]. 吕鹏辉. 电脑知识与技术. 2017(33)
[8]基于网络爬虫的水利信息检索系统的设计与实现[J]. 巫义锐,黄多辉,周逸徉. 水利信息化. 2017(04)
[9]基于网络爬虫和文本挖掘的实体关系研究与实现[J]. 谢文彬. 现代计算机(专业版). 2016(13)
[10]几种开源网络爬虫功能比较[J]. 郭小丹. 黑龙江科技信息. 2015(25)
硕士论文
[1]面向主题的多线程网络爬虫的设计与实现[D]. 蔡光波.西北民族大学 2017
[2]基于网络爬虫的在线教育平台设计与实现[D]. 房瑾堂.北京交通大学 2016
[3]面向建材信息的网络爬虫系统的设计与实现[D]. 于怀宝.北京交通大学 2015
[4]主题网络爬虫关键技术的研究与应用[D]. 陈千.北京理工大学 2015
[5]云南省地税局税收数据比对分析系统的设计与实现[D]. 刘少君.厦门大学 2013
[6]主题微博爬虫的设计与实现[D]. 王艳阁.中原工学院 2013
[7]校园BBS可定制爬虫的设计与实现[D]. 袁捷.华中科技大学 2013
[8]房地产交易信息搜索和匹配技术的研究与实现[D]. 李五一.杭州电子科技大学 2013
[9]面向微博的网络爬虫研究与实现[D]. 刘晶晶.复旦大学 2012
[10]Ajax友好的网络爬虫设计与实现[D]. 张媚.暨南大学 2011
本文编号:3276280
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
网络爬虫工作流程图
所以这类爬虫通常采用并行工作方式 虽然通用网络爬,但它适用于为搜索引擎搜索广泛的主题,有较强的应用价值[13]最常用的爬行策略主要有深度优先策略和广度优先策略这两种,种策略的工作原理做说明 深度优先策略[14]:此方法基于深度从低到高的顺序,从起始页开一级网页链接,直到处理该分支上的链接为止 在完成爬行分支之到最后一个链接节点,以便进一步搜索其他链接 当遍历所有链接结束 这种策略更适合垂直搜索或站内搜索,但在抓取内容更深的巨大的资源浪费 广度优先策略[15]:此策略根据 Web 内容目录内容的深度抓取页面录中的页面首先被抓取 当同一级别的页面爬行完成时,爬虫深入爬行 这种策略可以有效地控制页面的爬行深度和避免爬行时遇到问题 便于实现,并且不需要存储大量中间节点 缺点是需要较长到更深的目录页 用爬虫架构如图 2-2
第二章 相关理论及技术主题网络爬虫网络爬虫[12] [16](Topical Crawler),根据它的工作特性,有些学网络爬虫(Focused Crawler),它只选择与原先设定好的和主题行,无关的则忽略掉 与一般的网络爬虫相比,聚焦爬虫只选面进行爬行,这样提高了爬行的效率,也节省了资源 因此更们在某些信息领域的需求 首先要做的是评估 Web 的内容和链重要性对它们进行排列 相对于其它的传统爬虫,主题爬虫多价内容和链接这两个模块 通过页面解析后,爬虫可以把没有去 当然,针对主题相关,评估模块进行了链接排序,并且去链接 但是,这个还是远远不够的,所以有必要在进入在数据入所提取的页面是和主题相关的,还必须通过评价模块对已经抓进一步的分析 主题爬虫通常有四种评价策略:基于链接分析基于语境图 基于增强学习,图 2-3 是主题网络爬虫的架构图
【参考文献】:
期刊论文
[1]一种基于端到端的HTTP业务关联方法[J]. 叶青,张守懿,郑进一,李路艳. 信息通信. 2018(07)
[2]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[3]网络爬虫技术原理[J]. Kevin. 计算机与网络. 2018(10)
[4]大数据环境下的网络爬虫设计[J]. 郭丽蓉. 山西电子技术. 2018(02)
[5]基于语义相似聚合的主题爬虫算法研究[J]. 吴林,王永滨. 中国传媒大学学报(自然科学版). 2018(01)
[6]基于Na?ve Bayes和TF-IDF的真假新闻分类[J]. 蔡扬,付小斌. 电脑知识与技术. 2018(04)
[7]基于网络爬虫的新浪微博数据获取方式研究[J]. 吕鹏辉. 电脑知识与技术. 2017(33)
[8]基于网络爬虫的水利信息检索系统的设计与实现[J]. 巫义锐,黄多辉,周逸徉. 水利信息化. 2017(04)
[9]基于网络爬虫和文本挖掘的实体关系研究与实现[J]. 谢文彬. 现代计算机(专业版). 2016(13)
[10]几种开源网络爬虫功能比较[J]. 郭小丹. 黑龙江科技信息. 2015(25)
硕士论文
[1]面向主题的多线程网络爬虫的设计与实现[D]. 蔡光波.西北民族大学 2017
[2]基于网络爬虫的在线教育平台设计与实现[D]. 房瑾堂.北京交通大学 2016
[3]面向建材信息的网络爬虫系统的设计与实现[D]. 于怀宝.北京交通大学 2015
[4]主题网络爬虫关键技术的研究与应用[D]. 陈千.北京理工大学 2015
[5]云南省地税局税收数据比对分析系统的设计与实现[D]. 刘少君.厦门大学 2013
[6]主题微博爬虫的设计与实现[D]. 王艳阁.中原工学院 2013
[7]校园BBS可定制爬虫的设计与实现[D]. 袁捷.华中科技大学 2013
[8]房地产交易信息搜索和匹配技术的研究与实现[D]. 李五一.杭州电子科技大学 2013
[9]面向微博的网络爬虫研究与实现[D]. 刘晶晶.复旦大学 2012
[10]Ajax友好的网络爬虫设计与实现[D]. 张媚.暨南大学 2011
本文编号:3276280
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3276280.html