互联网舆情信息挖掘与群体行为分析
发布时间:2020-04-21 20:27
【摘要】:随着互联网的普及,国内互联网用户的不断增多,网络舆情逐渐渗透社会、经济、政治各个层面,网络虚拟群体业已成为推动互联网舆情发展不可忽视的力量。因此,基于互联网的舆情信息挖掘技术和网络群体行为研究越来越受到广泛关注。舆情是指一定时期内一定范围内的社会群体对某些社会现象和现实的主观反映。互联网舆情信息挖掘技术作为舆情主题检测的有效手段逐渐成为研究热点。然而,现有的互联网舆情信息挖掘技术在处理海量网络信息时曝露出很多问题,在网络群体行为分析方面研究尚不成熟,因此亟需在互联网舆情信息挖掘和群体行为分析的理论体系和技术方法上实现突破。 本文利用网络信息挖掘的方法分析了互联网舆情信息挖掘的流程,针对网络舆情产生、传播的特点,对传统网络信息抓取和预处理技术进行了改进。此外根据舆情主题检测的特点和要求对传统的文本聚类算法进行了改进。基于社会网络分析方法对网络舆情群体的组织结构和行为规律进行了分析,并以博客圈子和论坛小组为例进行了拓扑分析和中心度分析,总结出了这两种典型网络群体的结构和行为。最后,本文基于上述研究,进行了互联网舆情监控原型系统的架构和功能设计。主要研究内容如下: 网络信息抓取和预处理技术研究:在网络信息抓取阶段,结合互联网舆情信息实时更新,传播速度快的特点,本文设计了并发式增量式网络爬虫以满足网络舆情监控系统对不同网页来源的数据进行采集的需求,同时也解决了大规模网页爬行的效率问题。在信息预处理阶段,针对新闻和博客网页、BBS网页结构不同的特点采用了不同的净化技术,采用HTML Parser提取新闻和博客网页正文,根据BBS网页高度结构化的特点设计了基于DOM树和模板的BBS结构化信息提取,最终获得了可用于文本聚类的纯文本文档。 互联网舆情信息挖掘算法,即文本聚类算法研究:本文改进了传统的TF-IDF公式,可以对网络信息形成的动态文本流进行特征提取,并考虑了网络新兴词汇对特征提取的影响,给新词赋予适当的权重提高了增量TF-IDF模型的质量。在文本聚类阶段,在进行文本相似度分析时加入“时间窗”的概念,大大提高了Single-pass增量聚类算法的效率,同时也降低了聚类算法对内存的消耗。 基于社会网络分析的网络舆情群体行为研究:本文使用社会网络分析技术对基于某一舆情主题而聚集起来的舆情群体进行组织结构分析和行为监控,对网络群体和虚拟组织进行了拓扑分析、中心度分析和群体分析,并使用可视化社会网络工具绘制舆情群体网络图,将舆情群体的行为演变规律直观的展示给用户。 在上述研究基础上,本文设计了互联网舆情监控原型系统的架构、功能模块和工作流程,为下一步进行系统实现和应用奠定了基础。
【图文】:
图2一1网络爬虫工作原理图定的抓取策略对网页进行抓取,可以分为深在很多情况下会导致爬虫的陷入(trapped)问题】。指在抓取过程中,在完成当前层次的搜索后,现相对简单。在目前为覆盖尽可能多的网页,将广度优先搜索策略应用于聚焦爬虫中。其基内的网页具有主题相关性的概率很大。另外一合使用,先用广度优先策略抓取网页,再将其,随着抓取网页的增多,大量的无关网页将被照一定的网页分析算法,预测候选URL与取评价最好的一个或几个URL进行抓取。它
图2一2改进后的网络爬虫工作原理图2.3网络信息预处理技术信息预处理技术研究如何将HTML格式网页经过去噪、汉字编码转换等一系列操作处理成纯文本格式文档。由于网页通常包含广告、版权信息和页面导航等大量噪音,首先要对下载到的网页进行数据清洗。网络舆情信息通常来自于新闻网站、博客、BBS和SNS网站,从这些网站抓取到的HTML网页的结构不同,,其处理方法也各异。本节将介绍网页净化、中文分词等技术,研究不同结构网页的信息预处理方法。2.3.1多源异构网页净化方法网页噪音指网页中包含的广告、版权信息和页面导航、注释以及JavascriPt脚本。网页净化,又称网页去噪,指去除网页噪音获取网页标题和正文信息的技术。下面将分别介绍新闻和博客网页、BBS网页的净化技术。(1)新闻和博客网页净化本系统采用 HTMLParser提取新闻和博客网页正文。 HTMLParser是一个用于Html文件解析的Java库, HTMLParser把整个html文件组成分为三类节点(Node):Text(文字),Remark(Html文件中的注释),Tag(标签)
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09;F49
本文编号:2635702
【图文】:
图2一1网络爬虫工作原理图定的抓取策略对网页进行抓取,可以分为深在很多情况下会导致爬虫的陷入(trapped)问题】。指在抓取过程中,在完成当前层次的搜索后,现相对简单。在目前为覆盖尽可能多的网页,将广度优先搜索策略应用于聚焦爬虫中。其基内的网页具有主题相关性的概率很大。另外一合使用,先用广度优先策略抓取网页,再将其,随着抓取网页的增多,大量的无关网页将被照一定的网页分析算法,预测候选URL与取评价最好的一个或几个URL进行抓取。它
图2一2改进后的网络爬虫工作原理图2.3网络信息预处理技术信息预处理技术研究如何将HTML格式网页经过去噪、汉字编码转换等一系列操作处理成纯文本格式文档。由于网页通常包含广告、版权信息和页面导航等大量噪音,首先要对下载到的网页进行数据清洗。网络舆情信息通常来自于新闻网站、博客、BBS和SNS网站,从这些网站抓取到的HTML网页的结构不同,,其处理方法也各异。本节将介绍网页净化、中文分词等技术,研究不同结构网页的信息预处理方法。2.3.1多源异构网页净化方法网页噪音指网页中包含的广告、版权信息和页面导航、注释以及JavascriPt脚本。网页净化,又称网页去噪,指去除网页噪音获取网页标题和正文信息的技术。下面将分别介绍新闻和博客网页、BBS网页的净化技术。(1)新闻和博客网页净化本系统采用 HTMLParser提取新闻和博客网页正文。 HTMLParser是一个用于Html文件解析的Java库, HTMLParser把整个html文件组成分为三类节点(Node):Text(文字),Remark(Html文件中的注释),Tag(标签)
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.09;F49
【引证文献】
相关硕士学位论文 前1条
1 钟文辉;基于Heritrix的信息获取系统的研究及实现[D];中山大学;2013年
本文编号:2635702
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/2635702.html