当前位置:主页 > 管理论文 > 移动网络论文 >

基于高校BBS的舆情监测系统的研究与实现

发布时间:2021-07-20 06:55
  本文在分析和掌握了舆情监测系统的构成和运行流程的基础之上,研究并实现了一套针对高校BBS论坛的舆情监测系统。本系统分为四个部分,按照工作流程顺序为:①网页抓取,使用网络爬虫抓取指定站点的WEB网页,获得第一手资料;②信息预处理,对抓取下来的网页进行信息抽取、中文分词、词性标注、入库等操作,为舆情分析准备数据;③舆情分析,对数据库中的各种信息加以综合实现:热点主题发现、每鈤统计、情感倾向性分析、发展趋势预测、话题检测与跟踪等;④系统展示,将舆情分析的结果呈献给用户,为用户的决策提供必要的支持。本文的研究成果如下:(1)使用开源工具构建了一个具有针对性的网络爬虫。(2)提出一个集时间、帖子数量、查看数量以及参与人数的热点主题发现算法。实验表明,该算法比单一指标具有更准确更有效。(3)提出一个基于情感词词典、否定词和程度词的情感倾向值计算方法,该算法逆向依次对情感词的倾向值累加求和,并对倾向值进行平均处理,降低累加的影响。实验表明,该算法具有较好的效果。(4)本文使用层次聚类和1NN分类算法实现话题的检测与跟踪。通过实验获得相关的阈值,并对层次聚类算法增加“绝对相似度阈值”这一限制条件,缩减... 

【文章来源】:石家庄铁道大学河北省

【文章页数】:72 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题研究背景
    1.2 国内外研究现状
    1.3 论文内容及组织
第二章 网络舆情研究相关技术分析
    2.1 网络爬虫
    2.2 网页解析
    2.3 话题检测与跟踪技术
    2.4 话题情感倾向性分析
    2.5 话题发展趋势预测
    2.6 检索服务和多线程优化
    2.7 本章小结
第三章 BBS舆情监测系统分析
    3.1 系统功能分析
        3.1.1 系统体系结构分析
        3.1.2 网页抓取及预处理功能分析
        3.1.3 信息预处理功能分析
        3.1.4 舆情分析功能
        3.1.5 系统展示功能分析
    3.2 系统流程分析
    3.3 系统使用各类词典分析
    3.4 系统数据库分析与设计
    3.5 系统性能分析
    3.6 本章小结
第四章 网页抓取和信息预处理
    4.1 网页抓取
        4.1.1 BBS网站分析
        4.1.2 构建网络爬虫
        4.1.3 优化网络爬虫
        4.1.4 网络爬虫性能比较
    4.2 信息预处理
        4.2.1 HTMLPaser解析页面
        4.2.2 合并同主题文档
        4.2.3 存入数据库和存入索引库
        4.2.4 中文分词
    4.3 本章小结
第五章 舆情分析
    5.1 热点主题发现
    5.2 情感倾向性分析
    5.3 每日统计
    5.4 话题分析
        5.4.1 权重计算
        5.4.2 相似度计算
        5.4.3 话题检测
        5.4.4 话题跟踪
    5.5 趋势预测
    5.6 实验分析
        5.6.1 热点主题发现实验分析
        5.6.2 情感倾向性实验分析
        5.6.3 话题检测实验
        5.6.4 话题跟踪实验
        5.6.5 发展趋势分析实验
    5.7 本章小结
第六章 高校BBS舆情监测系统实现
    6.1 系统首页
    6.2 立即抓取
    6.3 每日统计
    6.4 检索服务
    6.5 情感分析
    6.6 话题分析
    6.7 本章小结
第七章 总结与展望
    7.1 总结
    7.2 展望
参考文献
致谢
个人简历、攻读硕士学位期间发表的论文


【参考文献】:
期刊论文
[1]基于Larbin的网络爬虫体系结构的研究与改进[J]. 李跃健,朱程荣.  计算机技术与发展. 2012(07)
[2]基于Nutch的图情博客搜索引擎的设计与实现[J]. 赵蓉英,陈必坤.  情报科学. 2012(04)
[3]高校BBS舆情监测系统设计与实现[J]. 陈立章,李斌,陈晓鹏.  微处理机. 2012(01)
[4]基于Single-Pass的网络话题在线聚类方法研究[J]. 朱恒民,朱卫未.  现代图书情报技术. 2011(12)
[5]中文文本情感分析综述[J]. 魏韡,向阳,陈千.  计算机应用. 2011(12)
[6]Gompertz曲线参数估计新方法(英文)[J]. 胡晓华,虞敏,吉承儒.  数学理论与应用. 2011(02)
[7]基于HTMLParser的Web文献信息提取[J]. 龚真平.  软件导刊. 2011(02)
[8]面向Web论坛的网络信息获取技术及系统实现[J]. 彭冬,蔡皖东.  计算机工程与科学. 2011(01)
[9]文本倾向性分析综述[J]. 厉小军,戴霖,施寒潇,黄琦.  浙江大学学报(工学版). 2011(07)
[10]基于Web的实验室互联网舆情分析处理系统的研究与实现[J]. 许峰.  科技情报开发与经济. 2011(01)

硕士论文
[1]基于KNN算法的中文Web文本分类技术研究[D]. 刘辉.辽宁工程技术大学 2010
[2]朴素贝叶斯分类器的研究与应用[D]. 王国才.重庆交通大学 2010
[3]校园BBS舆情分析系统的设计与实现[D]. 李婷.华中科技大学 2009
[4]互联网舆情监测分析系统实现[D]. 高洪杰.复旦大学 2009
[5]基于用户浏览行为的网络热点话题发现模型研究[D]. 罗亚平.北京邮电大学 2008



本文编号:3292366

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3292366.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户383a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com