当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向学术领域的舆情分析关键技术研究

发布时间:2017-04-12 13:22

  本文关键词:面向学术领域的舆情分析关键技术研究,由笔耕文化传播整理发布。


【摘要】:目前,我国的舆情研究大多都是围绕一般网络舆情展开,主要包括网络舆情的特点、管理、控制与引导、信息收集与分析、监测、预警等方面。近几年也出现了关于主题方面的舆情分析研究,但是大多还是针对于互联网上BBS、电商评论、微博、新闻报道等大众业余网络空间的舆情分析,对于学术领域方面的舆情分析还很少。研究人员在从事科研之前需要阅读大量的学术文献,以便了解目前这一学术领域的最新研究热点。然而面对海量的学术文献,搜索引擎只能帮助用户筛选出符合检索条件的文章列表,科研人员仍然需要通过大量阅读来获得需要的研究热点信息,这需要付出很多时间和精力。本文针对学术专业领域舆情分析缺失和中文专业主题内容挖掘不深的问题,研究面向学术领域的舆情分析关键技术,提出一个新型的面向学术领域的舆情分析算法。首先,根据用户需求,对海量文献进行基于学术特征的检索,获取相关文档集合。然后,本文提出一种基于主题模型的多文档自动摘要算法,通过LDA主题模型获取文档集合中每一篇文档的主题概率分布和每个主题对应的词语概率分布。同时根据主题分布的概率值,选取与文档相关的前几个主题来挖掘文本的浅层语义。然后将主题信息应用到选取摘要候选句的工作中,提出一种基于句子生成概率和文章结构的方法来计算句子的权重。进一步根据LDA得到的词语生成概率,对句子进行概率计算,并针对学术文献不同部分重要度不同,提出改进文档句子权重的方法,从而得到摘要候选句。由于学术文献相似且重要的句子很多,仅仅考虑句子权重得到摘要是不够的,还需要考虑摘要冗余的问题。本文又提出了一种基于最大边缘相关法MMR并结合学术领域特征的冗余控制算法,通过对大量的学术文献进行语料训练,使用学术领域特征的相似度计算对摘要候选句进行多方面的计算评分来选取摘要,最终得到包含各个主题、内容简洁、冗余度低的舆情简报展现给用户。最后,本文开展了验证实验,并与已有的摘要算法进行比较。实验结果表明,该算法可以较好提取学术特征信息,发现主题,去除冗余,提高舆情摘要的准确性和全面性。
【关键词】:舆情分析 主题模型 自动摘要 摘要冗余
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-9
  • 第1章 引言9-14
  • 1.1 研究背景9-10
  • 1.2 研究现状10-12
  • 1.2.1 国外舆情分析研究现状10-11
  • 1.2.2 国内舆情分析研究现状11-12
  • 1.3 本文研究内容12-13
  • 1.4 本文的组织结构13-14
  • 第2章 舆情分析相关技术研究14-26
  • 2.1 网络信息采集14-17
  • 2.1.1 网络信息采集概述14
  • 2.1.2 基于链接分析的网络信息采集算法14-16
  • 2.1.3 基于网页内容相关性分析的网络信息采集算法16-17
  • 2.2 自动摘要算法17-22
  • 2.2.1 生成自动摘要算法17-18
  • 2.2.2 冗余度控制18-22
  • 2.3 文本相似度算法22-25
  • 2.3.1 长文本相似度算法22-23
  • 2.3.2 短文本相似度算法23-25
  • 2.4 本章小结25-26
  • 第3章 学术领域舆情生成算法设计实现26-46
  • 3.1 设计目标与算法流程26-27
  • 3.2 网络舆情信息采集27-28
  • 3.2.1 网络信息采集27
  • 3.2.2 学术领域网络舆情信息采集27-28
  • 3.3 网络舆情数据预处理28
  • 3.3.1 文本预处理28
  • 3.3.2 文本分词28
  • 3.4 多文档自动摘要28-39
  • 3.4.1 主题模型28-36
  • 3.4.2 句子权重计算方法36-38
  • 3.4.3 句子权重计算算法38-39
  • 3.5 摘要生成39-45
  • 3.5.1 摘要候选句的选取39
  • 3.5.2 摘要句生成算法39-40
  • 3.5.3 相似度计算40-45
  • 3.6 本章小结45-46
  • 第4章 实验结果与分析46-51
  • 4.1 训练词料库46
  • 4.2 实验数据46
  • 4.3 LDA训练结果46-47
  • 4.4 实验结果与分析47-51
  • 第5章 总结和展望51-53
  • 5.1 总结51
  • 5.2 展望51-53
  • 参考文献53-57
  • 致谢57

【参考文献】

中国期刊全文数据库 前10条

1 朱庆生;徐宁;周瑜;;一种基于链接和内容分析的自适应主题爬虫算法[J];计算机与现代化;2015年09期

2 王荣波;谌志群;周建政;李治;高飞;;基于Wikipedia的短文本语义相关度计算方法[J];计算机应用与软件;2015年01期

3 王汉熙;万成娜;刘凯;;网络舆情研究现状与发展方向[J];哈尔滨工业大学学报(社会科学版);2015年01期

4 李然;张华平;赵燕平;商建云;;基于主题模型与信息熵的中文文档自动摘要技术研究[J];计算机科学;2014年S2期

5 唐亚娟;张德贤;杨琳;;一种新型的自动摘要冗余处理技术研究[J];中国新通信;2014年14期

6 姚明海;王娜;齐妙;李妍;;改进的最大相关最小冗余特征选择方法研究[J];计算机工程与应用;2014年09期

7 何清;;大数据与云计算[J];科技促进发展;2014年01期

8 尹培培;;大数据时代的网络舆情分析系统[J];广播与电视技术;2013年07期

9 路永和;李焰锋;;改进TF-IDF算法的文本特征项权值计算方法[J];图书情报工作;2013年03期

10 马瑞新;邓贵仕;王晓;;基于扩散理论的HITS算法在Web挖掘中的研究与优化[J];计算机应用研究;2012年01期


  本文关键词:面向学术领域的舆情分析关键技术研究,,由笔耕文化传播整理发布。



本文编号:301378

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/301378.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户48805***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com