基于数据挖掘的热点新闻发现及系统方法研究
本文选题:热点事件 切入点:文本聚类 出处:《湖北工业大学》2017年硕士论文
【摘要】:互联网新闻已经成为用户获取信息的一个重要来源。新型的网络资源和网络新闻应用不断增加,网络新闻数目呈现爆炸式增长,给用户阅读新闻增加了很多困难,从大量的网络新闻中发现和分析热点事件成为急需解决的重要问题。尽管机器学习、自然语言处理等多方面的技术已经在网络热点事件发现中得到了广泛的应用,但是现有的文本表示模型存在相对局限性,使得文本表示的性能仍不能让用户满意,还有很多问题需要进一步研究。为了实现更加深入的理解文本的目的,本文基于句义结构模型构建了一种基于聚类的互联网热点事件发现方法。该方法首先对文档进行句义成分分析,计算词的权重后生成语义向量;将语义向量用到热点事件发现系统中,采用single-pass聚类思想和凝聚式层次聚类与K-means聚类算法相结合的聚类算法,事件发现准确率为75.2%。此外,构建了一种事件简化表示的方法,抽取事件发展关键点和事件标签,事件发展关键点的准确率为58.9%。此外,设计并实现了一种热点事件发现和事件简化表示原型系统。
[Abstract]:Internet news has become an important source of information for users. New types of network resources and network news applications are constantly increasing, and the number of network news is exploding, making it more difficult for users to read news. Finding and analyzing hot events from a large number of network news has become an important problem that needs to be solved. Although machine learning, natural language processing and other technologies have been widely used in the discovery of network hot events, However, the existing text representation model has relative limitations, which makes the performance of text representation still not satisfactory to users, and there are still many problems that need to be further studied. In order to achieve a deeper understanding of the text, In this paper, a clustering based method for detecting hot Internet events is proposed based on the sentence meaning structure model. Firstly, the semantic component of the document is analyzed and the semantic vector is generated by calculating the weight of the words. The semantic vector is used in the hot spot event discovery system, and the clustering algorithm which combines the single-pass clustering idea with the condensed hierarchical clustering algorithm and the K-means clustering algorithm is adopted. The accuracy of event discovery is 75.2. In addition, a simplified representation method of events is constructed. The accuracy rate of event development key points is 58.9. In addition, a prototype system of hot spot event detection and event simplified representation is designed and implemented.
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
2 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
3 冯志伟;;自然语言处理的历史与现状[J];中国外语;2008年01期
4 刘远超;王晓龙;徐志明;关毅;;文档聚类综述[J];中文信息学报;2006年03期
5 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
6 秦兵,刘挺,李生;多文档自动文摘综述[J];中文信息学报;2005年06期
7 陈浩,何婷婷,姬东鸿;基于k-means聚类的无导词义消歧[J];中文信息学报;2005年04期
8 冯志伟;自然语言处理的学科定位[J];解放军外国语学院学报;2005年03期
9 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
10 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
相关硕士学位论文 前2条
1 刘星星;热点事件发现及事件内容特征自动抽取研究[D];华中师范大学;2009年
2 潘文锋;基于内容的垃圾邮件过滤研究[D];中国科学院研究生院(计算技术研究所);2004年
,本文编号:1675740
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1675740.html