当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于爬虫和文本聚类分析的网络舆情分析系统设计与实现

发布时间:2017-06-08 15:09

  本文关键词:基于爬虫和文本聚类分析的网络舆情分析系统设计与实现,由笔耕文化传播整理发布。


【摘要】:在现代互联网技术快速发展的带动下,以万维网作为信息的核心载体给人们搜索信息、共享信息提供了丰富的数据源,但在网络资源中快速获取精准有效信息变得越来越难,而且信息的置信程度也难以保证。现有搜索引擎技术和产品,如Google、百度、HotBot等,在很大程度上满足了人们获取网络信息资源的需求。但是,如何面对不同的用户偏好、用户背景等,识别用户潜在的搜索意图,挖掘用户背后真正需要的信息,对搜索引擎系统设计的重要性毋庸置疑。本文在对已有搜索系统研究基础上,研究个性化搜索的应用,并开展了搜索系统在舆情分析中的应用研究。主要内容包括:阐述了个性化搜索系统中的用户兴趣模型、网络信息抓取、网页信息分析与挖掘、文本聚类分类等关键技术,并基于系统的功能需求分析,设计了个性化搜索系统的总体框架和各个模块,通过个性化搜索系统在网络舆情分析中的应用,对舆情分析的关键技术进行了研究,并给出了系统的性能测试和分析结果。本文工作主要体现在以下两个方面:1)通过整合网络爬虫、文本分类与聚类、及索引技术,设计了一种基于用户兴趣模型的舆情热点信息挖掘框架。该框架通过网络爬虫中的信息抓取、信息过滤与更新策略,获取网络中有效的信息;然后采用改进的文本分类与聚类技术,挖掘出网页中的舆情分布、来源等热点信息,并且与用户进行交互,通过用户的反馈,构建相应的用户兴趣模型库。该框架为基于用户的个性化搜索系统设计提供了良好的参考。2)针对传统K-Means聚类算法对文本初始化聚类中心较为敏感及容易陷入局部极小点的问题,提出了一种基于向量空间模型的K-Means改进聚类算法。该算法提高了文本聚类及分类的准确率,有效解决了传统K-Means聚类算法在文本挖掘中的问题,并且也提高了文本挖掘的效率。
【关键词】:网络爬虫 文本挖掘 聚类分析 用户兴趣模型
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.52;TP391.1
【目录】:
  • 摘要5-6
  • abstract6-10
  • 第一章 绪论10-19
  • 1.1 研究背景10-12
  • 1.2 国内外研究现状12-18
  • 1.2.1 互联网爬虫技术研究12-14
  • 1.2.2 文本挖掘技术研究14-15
  • 1.2.3 个性化搜索技术15-17
  • 1.2.4 面向舆情分析的文本处理17-18
  • 1.3 本文的主要工作及安排18-19
  • 第二章 系统需求分析19-29
  • 2.1 系统需求分析19-20
  • 2.2 系统功能需求20-27
  • 2.2.1 系统功能用例分析20-21
  • 2.2.2 子系统功能用例分析21-27
  • 2.2.3 网络舆情功能分析27
  • 2.3 系统性能需求27
  • 2.4 系统其他需求27-28
  • 2.5 本章总结28-29
  • 第三章 系统设计29-51
  • 3.1 系统总体设计29-33
  • 3.1.1 系统设计思路29-31
  • 3.1.2 系统总体设计31-33
  • 3.2 用户兴趣模型设计33-39
  • 3.2.1 用户兴趣模型概述33
  • 3.2.2 用户建模方法33-35
  • 3.2.3 用户兴趣建模35-39
  • 3.3 系统模块设计39-48
  • 3.3.1 网页信息采集模块40-41
  • 3.3.2 数据预处理模块41-42
  • 3.3.3 信息检索模块42-43
  • 3.3.4 网页信息分析与挖掘模块43-47
  • 3.3.5 归档管理模块47
  • 3.3.6 兴趣点数据统计模块47-48
  • 3.3.7 系统管理模块48
  • 3.4 数据库设计48-50
  • 3.5 本章小结50-51
  • 第四章 系统关键功能实现51-65
  • 4.1 网络舆情信息抓取功能实现51-58
  • 4.1.1 实现网页信息功能抓取的策略51-53
  • 4.1.2 信息过滤与更新方法53
  • 4.1.3 网络舆情信息的抓取功能实现53-58
  • 4.2 舆情热点信息挖掘功能实现58-60
  • 4.3 网络舆情聚类分析功能实现60-64
  • 4.3.1 舆情文本聚类分析60
  • 4.3.2 聚类分析功能实现60-64
  • 4.4 本章小结64-65
  • 第五章 系统测试与分析65-72
  • 5.1 开发环境与界面设计65-66
  • 5.2 系统测试与分析66-71
  • 5.2.1 系统测试的评价指标66-67
  • 5.2.2 系统测试与性能分析67-71
  • 5.3 本章小结71-72
  • 第六章 总结与展望72-74
  • 6.1 总结72
  • 6.2 未来展望72-74
  • 致谢74-75
  • 参考文献75-79

【相似文献】

中国期刊全文数据库 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

中国重要会议论文全文数据库 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

中国博士学位论文全文数据库 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

中国硕士学位论文全文数据库 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年


  本文关键词:基于爬虫和文本聚类分析的网络舆情分析系统设计与实现,,由笔耕文化传播整理发布。



本文编号:432889

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/432889.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户92512***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com