当前位置:主页 > 经济论文 > 政治经济论文 >

网络热点话题实时发现技术研究与实现

发布时间:2018-02-04 15:29

  本文关键词: 热点话题发现 网络爬虫 中文分词 极大团挖掘 话题展示平台 出处:《北京邮电大学》2014年硕士论文 论文类型:学位论文


【摘要】:随着互联网、社交平台以及移动技术的飞速发展,人们越来越多的和网络接触,并在互联网上和他人分享自己的观点。人们每天所关心的、谈论的内容即是本文提及的热点话题。热点话题可以在政治、经济、文化等领域发挥重要的作用,所以对热点话题实时发现技术的研究具有很高的应用价值。本论文以此为出发点,研究了热点话题实时发现相关技术,并实现了热点话题实时发现系统。 本文的主要工作如下: 第一,设计并完成了热点话题实时发现系统,可以查看热点话题详情; 第二,提出并实现了基于模板的爬虫采集技术,并应用于系统的信息采集模块,解决了对网络新闻和微博数据的爬取问题,能够高效的采集数据; 第三,提出并实现了基于词频的中文分词法,并应用于文本预处理模块,改善了分词过程中的歧义问题,能够得到更为准确的分词结果; 第四,提出了一种改进的准极大团挖掘方法,并应用于话题提取模块,解决了极大团中相似话题的合并问题,能够得到更为准确的话题。 本文论述的系统可以高效的采集新闻、微博数据,并成功进行了文本预处理和话题的提取,最后在前端平台展示结果。该系统具有较高的实际应用价值。
[Abstract]:With the rapid development of the Internet, social platforms and mobile technology, people are more and more in contact with the Internet and share their views with others on the Internet. What we are talking about is a hot topic mentioned in this paper. Hot topics can play an important role in the fields of politics, economy, culture and so on. Therefore, the research on real-time discovery of hot topics has high application value. This paper studies the related technologies of real-time discovery of hot topics, and realizes the real-time discovery system of hot topics. The main work of this paper is as follows:. First, a real-time hot topic discovery system is designed and completed, which can view the details of hot topic. Secondly, the crawler acquisition technology based on template is put forward and implemented, and it is applied to the information collection module of the system, which solves the crawling problem of network news and Weibo data, and can collect data efficiently. Thirdly, the Chinese word segmentation method based on word frequency is put forward and implemented, and it is applied to the text preprocessing module, which improves the ambiguity in the segmentation process and can get more accurate segmentation results. In 4th, an improved quasi-maximal cluster mining method is proposed and applied to the topic extraction module, which solves the problem of merging similar topics in the maximal cluster and can obtain more accurate topics. The system discussed in this paper can collect news and Weibo data efficiently, and successfully carry out text preprocessing and topic extraction, and finally display the results on the front-end platform. The system has high practical application value.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【参考文献】

相关期刊论文 前10条

1 赵颖斯;刘云;;BBS舆情系统的数据采集方法[J];电信快报;2008年12期

2 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期

3 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期

4 周德懋;李舟军;;高性能网络爬虫:研究综述[J];计算机科学;2009年08期

5 郑魁;疏学明;袁宏永;;网络舆情热点信息自动发现方法[J];计算机工程;2010年03期

6 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期

7 张晓艳;王挺;;话题发现与追踪技术研究[J];计算机科学与探索;2009年04期

8 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期

9 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期

10 肖波;徐前方;蔺志青;郭军;李春光;;可信关联规则及其基于极大团的挖掘算法[J];软件学报;2008年10期



本文编号:1490528

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/zhengzhijingjixuelunwen/1490528.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9248d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com