基于深度学习的微博短文本情感倾向分析
发布时间:2021-03-09 07:04
随着社交网络媒体的不断快速发展与进步,互联网上的文字信息急剧膨胀。微博作为目前中国最受欢迎的微博客服务,每时每刻都在产生海量的数据,这些数据包含了大量的有关网民情绪与态度的信息。如果将情感分析技术应用到微博的海量数据上,可以从海量数据中发掘出价值,利用这些数据,将有助于完善互联网的舆情监测系统,以检测物理世界中的异常或意外事件。本文将主要研索目标设定为中文短文微博,为此,本文主要做了关于以下方面的研究工作:(1)在微博数据的获取方面,本文设计了一个爬虫架构,并基于该架构实现了一个使用python语言编写的微博数据采集系统。该系统使用selenium通过模拟人工操作浏览器解决微博的身份认证问题。同时,参考聚焦爬虫的设计模式,有针对性地采集微博数据。该爬虫系统解决了逆向微博工程量大实现复杂,完全使用浏览器模拟操作文本采集过慢的问题,在理想情况下该爬虫系统的单线程采集速率可以达到每分钟约800条。(2)在情感分析方面,考虑到情感词对文本情感表达的积极影响,本文整合了几个在中文情感分析领域常用的情感词典,设计了使用情感词对词向量进行权值调整的策略。为了验证该方法的有效性,本文通过将未调整的词向...
【文章来源】:湘潭大学湖南省
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
微博垂直领域生态综上,在微博上进行文本数据挖掘,对个人用户而言,可以通过挖掘个人用
基于API采集数据的流程图
虫(也称为蜘蛛)是在某种已经设定的特定规则下自动识别和含文字、图片流媒体等)的工具。它可以互联网上遍历网页到本地或服务器,是搜索引擎的核心组件之一[31]。搜索引是通过遍历互联网上的海量信息,将其中有效的信息存储到.3 给出一个较为经典的网络爬虫框架。
本文编号:3072466
【文章来源】:湘潭大学湖南省
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
微博垂直领域生态综上,在微博上进行文本数据挖掘,对个人用户而言,可以通过挖掘个人用
基于API采集数据的流程图
虫(也称为蜘蛛)是在某种已经设定的特定规则下自动识别和含文字、图片流媒体等)的工具。它可以互联网上遍历网页到本地或服务器,是搜索引擎的核心组件之一[31]。搜索引是通过遍历互联网上的海量信息,将其中有效的信息存储到.3 给出一个较为经典的网络爬虫框架。
本文编号:3072466
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3072466.html