当前位置:主页 > 管理论文 > 移动网络论文 >

跨语言社会舆情分析的数据获取技术研究

发布时间:2017-09-25 22:16

  本文关键词:跨语言社会舆情分析的数据获取技术研究


  更多相关文章: 跨语言 网络舆情 网络爬虫 数据获取 数据提取 用户关系 社交网络


【摘要】:大规模的互联网用户使得网络舆情成为社会舆情的重要组成部分。互联网上的大部分群体性数据资源集中在微博、论坛、新闻网站等社交网络和QQ、微信等及时通讯工具上。跨语言社会舆情分析是我国智能信息处理的一个研究热点,中国少数民族地区及周边国家的需求,并且社会舆情传播的跨语言特性,迫切需要研究跨语言社会舆情分析基础理论及关键技术。维吾尔语是我国主要少数民族语言之一,为了构建一个好的跨语言舆情分析系统,针对维吾尔文社交网络的舆情分析研究显得尤为重要。高效和正确地获取网络上的舆情数据是网络舆情分析中最重要的基础工作。本文从舆情数据来源的选择、针对性网络爬虫的设计、舆情数据采集方案的设计和舆情数据提取方案的设计等四个方面进行研究,最后成功的设计与实现了面向维吾尔文社交网络的舆情数据获取平台。目前,维吾尔文社交网络的舆情数据获取研究处于初步阶段,该研究的最大的难点之一是维吾尔文微博开发商不提供开放API,此情况增加了对于维吾尔文微博的舆情数据获取的难点;另一个难点是维吾尔文网站的编码方式和网站结构等方面区别于中文或英文网站,所以目前流行的网络爬虫不适合获取维吾尔文社交网络的数据。本文以维吾尔文微博、论坛和新闻网站中的最典型的10个网站选择为舆情数据来源的实验对象;由于不同网站有不同网站结构的构特,并为了保证最终数据的高精确性和完整性,本文在网络爬虫方面采用了基于聚焦爬虫思路的针对性网络爬虫方法,即对于每一个网站分别设计专用爬虫;达到获取大量源数据的需求,需要获取历史数据,为此采用了深度优先搜索方法和广度优先搜索方法;在数据采集方面,为了准确的判断数据更新情况,采用了增量式数据采集方法,为了得到特定网站中的特定目标数据,采用了基于用户个性化的数据采集方法;由于维吾尔文网站的编码方式和页面布局的特点,在数据提取方面采用了手工法;为了提高数据获取的速度并保证网络爬虫的独立性,本文在数据获取平台的总体结构上采用了分站式数据获取方法。为了解决上述微博网站不提供API的难点问题,本文提出了基于用户关系的维吾尔文微博数据获取方法。由于本文研究对象的三种类型网站在网页布局上有明显的布局相似度特征,本文采用了网页布局相似度的数据获取方法。通过上述研究,本文实现了高效的面向维吾尔文社交网络的舆情数据获取平台。通过本文的研究,从实验对象的10个网站最终得到了400000多条高质量、高精确度数据,并对跨语言舆情分析研究提供了维吾尔文社交网络的舆情数据获取技术和丰富的数据资源。
【关键词】:跨语言 网络舆情 网络爬虫 数据获取 数据提取 用户关系 社交网络
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092;TP391.1
【目录】:
  • 摘要2-4
  • Abstract4-9
  • 第一章 绪论9-16
  • 1.1 课题来源9
  • 1.2 课题背景及意义9-10
  • 1.3 国内外研究现状10-16
  • 1.3.1 网络爬虫技术10-11
  • 1.3.2 数据采集技术11-12
  • 1.3.3 数据提取技术12
  • 1.4 存在的问题12-14
  • 1.5 研究内容与主要创新点14-15
  • 1.5.1 研究内容14-15
  • 1.5.2 主要的创新点15
  • 1.6 论文的组织结构15-16
  • 第二章 网络舆情数据获取平台的建设16-34
  • 2.1 网络舆情数据来源的选择16-18
  • 2.1.1 微博16-17
  • 2.1.2 论坛17-18
  • 2.1.3 新闻网站18
  • 2.2 数据来源站点的基本结构分析18-23
  • 2.2.1 微博网站18-20
  • 2.2.2 论坛网站20-21
  • 2.2.3 新闻网站21-23
  • 2.3 舆情爬虫的设计23-31
  • 2.3.1 舆情爬虫的总体结构23-24
  • 2.3.2 微博爬虫的设计24-29
  • 2.3.3 论坛爬虫的设计29-30
  • 2.3.4 新闻爬虫的设计30-31
  • 2.4 舆情数据获取平台的介绍31-33
  • 2.4.1 开发环境31-32
  • 2.4.2 总体设计32-33
  • 2.5 本章小结33-34
  • 第三章 数据获取方案的实现34-52
  • 3.1 数据获取方案的总体设计34-35
  • 3.2 微博数据获取方案的实现35-40
  • 3.2.1 基于用户个性化的微博数据获取方法35-36
  • 3.2.2 微博网页的布局结构特点36-37
  • 3.2.3 微博数据采集方案37-38
  • 3.2.4 微博数据提取方案38-40
  • 3.3 论坛数据获取方案40-47
  • 3.3.1 论坛网页布局特点分析41-42
  • 3.3.2 论坛数据采集方案的实现42-44
  • 3.3.3 论坛数据提取44-47
  • 3.4 新闻数据获取方案的实现47-51
  • 3.4.1 新闻网站页面分析47-49
  • 3.4.2 新闻网站的数据采集方案49-50
  • 3.4.3 新闻数据的提取方案50-51
  • 3.5 本章小结51-52
  • 第四章 性能测试实验与数据分析52-57
  • 4.1 数据获取有效性实验52-53
  • 4.1.1 测试环境52
  • 4.1.2 数据获取量分析52-53
  • 4.2 数据提取精确度分析53-56
  • 4.2.1 微博数据提取精确度分析53-55
  • 4.2.2 论坛数据提取精确度分析55
  • 4.2.3 新闻数据提取精确度分析55-56
  • 4.3 本章小结56-57
  • 第五章 总结与展望57-59
  • 5.1 总结57-58
  • 5.2 展望58-59
  • 参考文献59-62
  • 在读硕士研究生期间发表论文62-63
  • 致谢63-64

【参考文献】

中国期刊全文数据库 前4条

1 王全兰;;网络舆情信息采集及预警方法研究[J];管理工程师;2012年02期

2 高扬;;基于.NET平台的三层架构软件框架的设计与实现[J];计算机技术与发展;2011年02期

3 周芳;王瑞;;基于平行系统的网络舆情试验方法[J];指挥信息系统与技术;2013年03期

4 顾轶灵;;基于多维语义的互联网药品信息提取方法[J];计算机系统应用;2011年11期

中国硕士学位论文全文数据库 前1条

1 陈翰;突发事件网络舆情数据采集与抽取技术研究[D];解放军信息工程大学;2012年



本文编号:919869

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/919869.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d8a90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com