网络论坛舆情信息的收集与管理技术研究
发布时间:2021-07-13 20:38
随着互联网的发展使得网络舆情成为研究热点,各地网民规模继续稳步增长,作为舆情信息来源之一的论坛/BBS用户规模日益庞大,因此对论坛做好舆情监测,是网络舆情监测工作的重要部分。网络舆情监测主要包括“网络舆情采集”和“网络舆情分析”,舆情信息采集是舆情分析的基础,因此对舆情信息采集的研究具有重要意义。本文首先论述了相关概念和技术,然后针对BBS的结构给出了提高信息获取,处理和存储管理效率的办法,最后在实验数据中给出相关处理的结果以及在Spring+DWR框架下实现舆情信息显示和热点信息查询等。论文主要完成了以下几个方面的工作:1)舆情信息获取技术方面,本文研究了BBS结构特征,深入分析了Heritrix的功能结构和实现原理,针对BBS结构利用扩展的Heritrix提取器设计了BBS舆情信息获取方案。2)舆情信息处理技术方面,研究利用Htmlparser实现信息提取,深入分析了Htmlparser的功能结构和实现原理,设计信息提取方案。3)数据库存储技术方面,把舆情信息处理结果进行数据库存储以及对帖子标题建立索引,并给出了效率的对比。
【文章来源】:华侨大学福建省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
J2EE体系结构图
第三章 系统详细设计3.1 网络爬虫设计3.1.1 Heritrix 概述Heritrix[46]是由 Java 开发的开源网络爬虫,具有强大的抓取网络资源的功能,Heritrix 具有强大的扩展功能,用户可以根据自己的需要,扩展它的各个组件。Heritrix 可以直接安装,也可以在 Eclipse 中安装。安装成功后的界面如图 3.1
图 3.2 Heritrix 登录后界面3.1.2 Heritrix 工作原理Heritrix 工作原理与体系结构相关,Heritrix Crawlcontroller(中央控制器) Frontior.BdbFrontier,多处理链和 Processor[47]等构成。( 1 )Crawlorder 抓取任务Heritrix 的抓取工作是从 Crawlorder 开始的,在种创建任务的方式Create New JobBased on existingBased on a recovBased on a profilWith defawlts
【参考文献】:
期刊论文
[1]面向网络舆情的检索系统设计研究[J]. 安靖. 软件导刊. 2013(07)
[2]网络舆情信息提取与预处理研究[J]. 陈桂鸿,曹树金,陈忆金. 图书情报知识. 2011(06)
[3]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[4]基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J]. 白坤,耿国华. 计算机应用与软件. 2009(01)
[5]BBS舆情系统的数据采集方法[J]. 赵颖斯,刘云. 电信快报. 2008(12)
[6]基于SVM的中文报道关系识别方法研究[J]. 王强,张永奎. 计算机工程与应用. 2008(33)
[7]基于语义域语言模型的中文话题关联检测[J]. 洪宇,张宇,范基礼,刘挺,李生. 软件学报. 2008(09)
[8]BBS与Blog比较分析[J]. 李昕. 忻州师范学院学报. 2008(04)
[9]Spring框架中IoC的实现[J]. 薄奇,许林英. 微处理机. 2008(01)
[10]时间信息在话题检测中的应用研究[J]. 赵华,赵铁军,赵霞. 计算机科学. 2008(01)
博士论文
[1]基于语义结构和时序特征的话题检测与跟踪技术研究[D]. 洪宇.哈尔滨工业大学 2009
[2]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
硕士论文
[1]网络舆情预测关键技术研究[D]. 李振.郑州大学 2010
[2]基于知网和话题更新的话题跟踪算法研究[D]. 焦健.北京交通大学 2009
[3]校园BBS舆情数据收集与提取系统的设计与实现[D]. 陈丽萍.华中科技大学 2009
[4]基于容错粗糙集的话题检测与跟踪方法研究[D]. 毋非.西安电子科技大学 2009
[5]高校BBS对大学生思想教育的影响及对策[D]. 尚慧.大连理工大学 2008
[6]文本倾向性分析在舆情监控系统中的应用研究[D]. 张超.北京邮电大学 2008
[7]互联网舆情信息获取与分析研究[D]. 金晓鸥.上海交通大学 2008
本文编号:3282763
【文章来源】:华侨大学福建省
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
J2EE体系结构图
第三章 系统详细设计3.1 网络爬虫设计3.1.1 Heritrix 概述Heritrix[46]是由 Java 开发的开源网络爬虫,具有强大的抓取网络资源的功能,Heritrix 具有强大的扩展功能,用户可以根据自己的需要,扩展它的各个组件。Heritrix 可以直接安装,也可以在 Eclipse 中安装。安装成功后的界面如图 3.1
图 3.2 Heritrix 登录后界面3.1.2 Heritrix 工作原理Heritrix 工作原理与体系结构相关,Heritrix Crawlcontroller(中央控制器) Frontior.BdbFrontier,多处理链和 Processor[47]等构成。( 1 )Crawlorder 抓取任务Heritrix 的抓取工作是从 Crawlorder 开始的,在种创建任务的方式Create New JobBased on existingBased on a recovBased on a profilWith defawlts
【参考文献】:
期刊论文
[1]面向网络舆情的检索系统设计研究[J]. 安靖. 软件导刊. 2013(07)
[2]网络舆情信息提取与预处理研究[J]. 陈桂鸿,曹树金,陈忆金. 图书情报知识. 2011(06)
[3]Web信息抽取技术综述[J]. 陈钊,张冬梅. 计算机应用研究. 2010(12)
[4]基于Lucene/Heritrix的垂直搜索引擎的研究与应用[J]. 白坤,耿国华. 计算机应用与软件. 2009(01)
[5]BBS舆情系统的数据采集方法[J]. 赵颖斯,刘云. 电信快报. 2008(12)
[6]基于SVM的中文报道关系识别方法研究[J]. 王强,张永奎. 计算机工程与应用. 2008(33)
[7]基于语义域语言模型的中文话题关联检测[J]. 洪宇,张宇,范基礼,刘挺,李生. 软件学报. 2008(09)
[8]BBS与Blog比较分析[J]. 李昕. 忻州师范学院学报. 2008(04)
[9]Spring框架中IoC的实现[J]. 薄奇,许林英. 微处理机. 2008(01)
[10]时间信息在话题检测中的应用研究[J]. 赵华,赵铁军,赵霞. 计算机科学. 2008(01)
博士论文
[1]基于语义结构和时序特征的话题检测与跟踪技术研究[D]. 洪宇.哈尔滨工业大学 2009
[2]短文本语言计算的关键技术研究[D]. 龚才春.中国科学院研究生院(计算技术研究所) 2008
硕士论文
[1]网络舆情预测关键技术研究[D]. 李振.郑州大学 2010
[2]基于知网和话题更新的话题跟踪算法研究[D]. 焦健.北京交通大学 2009
[3]校园BBS舆情数据收集与提取系统的设计与实现[D]. 陈丽萍.华中科技大学 2009
[4]基于容错粗糙集的话题检测与跟踪方法研究[D]. 毋非.西安电子科技大学 2009
[5]高校BBS对大学生思想教育的影响及对策[D]. 尚慧.大连理工大学 2008
[6]文本倾向性分析在舆情监控系统中的应用研究[D]. 张超.北京邮电大学 2008
[7]互联网舆情信息获取与分析研究[D]. 金晓鸥.上海交通大学 2008
本文编号:3282763
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3282763.html