微博电力相关主题数据抓取软件的开发与实现
发布时间:2021-10-19 16:21
在近十几年来,随着网络速度的飞跃式提升,智能上网设备的大范围普及,一系列新颖的互联网社交媒体应运而生、发展壮大。其中,微博作为一种典型的社交软件,凭借其发布及时,操作便捷等特性成为了人们进行互联网社交时的首选。通过发条状态抒发情感已经逐渐融入到了人们的日常生活中,随着时间的累积,微博平台数据中承载积累了大量的用户真实情感。因此,如何收集并统计出网络上广大用户的情感动态是一个值得研究的问题。而国家电网作为一个国有特大型骨干企业,为客户供更优质的服务提是其永恒不变的宗旨。因此本文提出了一个能抓取互联网上电力相关主题信息的软件,分析其整体情感走向,能有助于国网公司及时群众的满意度及需求,使公司能更好的履行社会责任,更好的实现“互联网+营销服务”。本次研究对象为具有一定互联网代表意义的微博,针对微博上出现的众多与电力相关的信息数据,如何整理归类,如何有选择性的去提取有效的主体信息,本论文设计了一个程序,采用了当前的自然语言处理技术,该系统可以实现对微博电力相关主题的实时抓取,同时也可以展开针对性的情感倾向性分析。本论文的主要工作包括:1)本文开发并实现了一个爬虫程序,可在微博内定向实时抓取电力...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
网络爬虫架构图
第二章相关理论与研究综述7络爬虫程序,基本上都是在一个公认的成熟的框架下编制而成的。何谓一个成熟的网络爬虫框架呢?本文各方探讨,得出结论如下,一个好的网络爬虫框架,应该满足以下要求:(1)更新及时,因为网页的更新是随时随地的,爬虫的本质就是在网页上抓取内容,一个成熟的爬虫,必然需要与网页更新速率一致;(2)流畅性,一个成熟的网络爬虫必然与用户所使用的计算机以及一算机内各个核心硬件,如CPU,硬盘等运行流畅;(3)分辨重点,爬虫的原理是爬去相关信息,那么如何选取那些事重点,能减少很多多余操作;(4)能同步工作,一个好的爬虫软件,必然不会只有一个设备运行或是一个用户需要,能支持多设备同时运行,才能满足用户要求。(5)兼容性,在爬虫软件发展到如今,各种类型的爬虫软件互相交接已必不可免,能相互拓展、兼容才能更好地灵活发展。Heritrix就是一个最好的例子,Heritrix的本质是由java编写的爬虫软件,它的原理是搜索站点内每一个页面,取得有效的URL后产生本地文件,所抓取的内容不仅有文字信息,还包括了图片信息。而我们熟知的Scrapy本质也是利用了传统模式,利用python编写的开源。Scrapy整体框架如图2-2所示。图2-2Scrapy爬虫框架图根据表格,我们很容易理解该爬虫框架的运行规则:(1)根据输入信息生成
敢环揭?蚍?衿鞣⒉既?务是,只需要把内容与URL地址传输过去就行,工作流程非常迅速且简单;(3)兼容性强,各种数据都能通过HTTP进行传输;(4)一对一服务,HTTP连接不会同时处理多个服务要求,只有处理完当前连接请求后,才会继续下一条任务,因此其处理单个任务的效率非常高。(5)HTTP协议为无状态协议,对每个任务的答复都比较快捷,同时为了增加速度,其只负责处理任务,而不会对任务做存储功能,即同一个任务若重复提交,HTTP协议也只会重复进行,而不会把上次的服务结果提供过来。HTTP协议原理如图2-3所示。图2-3HTTP协议原理简图一个HTTP请求由以下三部分组成:(1)请求行,请求行首先是一个符号,接着空格符,最后附上地址与协议版本,如MelodyRequest-URLHTPP-Ivpndion
【参考文献】:
期刊论文
[1]使用网络爬虫获取数据行为的刑事责任认定——以“晟品公司”非法获取计算机信息系统数据罪为视角[J]. 游涛,计莉卉. 法律适用. 2019(10)
[2]互联网化社会结构的赋权分析[J]. 杜鹏,王梓霈尔,任文肖. 新闻研究导刊. 2018(24)
[3]基于词典和规则集的中文微博情感分析[J]. 王志涛,於志文,郭斌,路新江. 计算机工程与应用. 2015(08)
[4]基于多特征与复合分类法的中文微博情感分析[J]. 吴维,肖诗斌. 北京信息科技大学学报(自然科学版). 2013(04)
[5]中文微博情感分析中主客观句分类方法[J]. 杨武,宋静静,唐继强. 重庆理工大学学报(自然科学). 2013(01)
硕士论文
[1]微博中新兴语气词“咩”的研究[D]. 张圆圆.上海外国语大学 2019
本文编号:3445212
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
网络爬虫架构图
第二章相关理论与研究综述7络爬虫程序,基本上都是在一个公认的成熟的框架下编制而成的。何谓一个成熟的网络爬虫框架呢?本文各方探讨,得出结论如下,一个好的网络爬虫框架,应该满足以下要求:(1)更新及时,因为网页的更新是随时随地的,爬虫的本质就是在网页上抓取内容,一个成熟的爬虫,必然需要与网页更新速率一致;(2)流畅性,一个成熟的网络爬虫必然与用户所使用的计算机以及一算机内各个核心硬件,如CPU,硬盘等运行流畅;(3)分辨重点,爬虫的原理是爬去相关信息,那么如何选取那些事重点,能减少很多多余操作;(4)能同步工作,一个好的爬虫软件,必然不会只有一个设备运行或是一个用户需要,能支持多设备同时运行,才能满足用户要求。(5)兼容性,在爬虫软件发展到如今,各种类型的爬虫软件互相交接已必不可免,能相互拓展、兼容才能更好地灵活发展。Heritrix就是一个最好的例子,Heritrix的本质是由java编写的爬虫软件,它的原理是搜索站点内每一个页面,取得有效的URL后产生本地文件,所抓取的内容不仅有文字信息,还包括了图片信息。而我们熟知的Scrapy本质也是利用了传统模式,利用python编写的开源。Scrapy整体框架如图2-2所示。图2-2Scrapy爬虫框架图根据表格,我们很容易理解该爬虫框架的运行规则:(1)根据输入信息生成
敢环揭?蚍?衿鞣⒉既?务是,只需要把内容与URL地址传输过去就行,工作流程非常迅速且简单;(3)兼容性强,各种数据都能通过HTTP进行传输;(4)一对一服务,HTTP连接不会同时处理多个服务要求,只有处理完当前连接请求后,才会继续下一条任务,因此其处理单个任务的效率非常高。(5)HTTP协议为无状态协议,对每个任务的答复都比较快捷,同时为了增加速度,其只负责处理任务,而不会对任务做存储功能,即同一个任务若重复提交,HTTP协议也只会重复进行,而不会把上次的服务结果提供过来。HTTP协议原理如图2-3所示。图2-3HTTP协议原理简图一个HTTP请求由以下三部分组成:(1)请求行,请求行首先是一个符号,接着空格符,最后附上地址与协议版本,如MelodyRequest-URLHTPP-Ivpndion
【参考文献】:
期刊论文
[1]使用网络爬虫获取数据行为的刑事责任认定——以“晟品公司”非法获取计算机信息系统数据罪为视角[J]. 游涛,计莉卉. 法律适用. 2019(10)
[2]互联网化社会结构的赋权分析[J]. 杜鹏,王梓霈尔,任文肖. 新闻研究导刊. 2018(24)
[3]基于词典和规则集的中文微博情感分析[J]. 王志涛,於志文,郭斌,路新江. 计算机工程与应用. 2015(08)
[4]基于多特征与复合分类法的中文微博情感分析[J]. 吴维,肖诗斌. 北京信息科技大学学报(自然科学版). 2013(04)
[5]中文微博情感分析中主客观句分类方法[J]. 杨武,宋静静,唐继强. 重庆理工大学学报(自然科学). 2013(01)
硕士论文
[1]微博中新兴语气词“咩”的研究[D]. 张圆圆.上海外国语大学 2019
本文编号:3445212
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3445212.html