基于刻面分类的网络群体事件主题聚类研究
本文选题:刻面分类 + 网络群体事件 ; 参考:《江苏科技大学》2016年硕士论文
【摘要】:伴随着我国经济与文化的快速发展,我国的社会经济结构进入了一个急剧变革的转型时期。庞大的网络群体与社会经济矛盾交织在一起,加上“互联网+”行动计划的推动,使得近年来我国网络群体事件呈现数量多、规模大、主题和背景复杂的趋势。网络群体事件的频繁发生,已经严重影响到甚至危害了社会秩序的稳定和人民群众的安宁,同时也得到了政府相关部门的高度重视。有效地对网络群体事件进行监控,关键在于快速及时地获取网络群体事件的主题信息。主题聚类是目前实现主题识别的主要技术,如何利用主题聚类技术从繁杂的网络信息中获取网络群体事件的主题,已然成为国内外众多学者研究和探索的热点。本文针对网络群体事件的主题聚类进行了研究,主要工作包含以下两个方面:(1)首先研究并改进了新闻网页文本的关键词提取方法。传统的文本关键词提取方法主要基于词汇的词频特征,而网页文本与普通文本在文本形式上存在差异,因此利用传统的关键词提取方法提取网页文本关键词时效果不理想。本文在基于词频特征的关键词提取方法基础上,通过分析网页文本的特点,结合词汇的词性特征、位置特征和词共现特征等信息,并给予每个特征信息适当的调整参数,形成了多种特征组合的词汇权重计算公式,并依据此公式进行新闻网页文本的关键词提取。(2)针对传统的基于向量空间模型的文本聚类算法存在的数据高维稀疏、缺乏语义信息的问题,本文提出了基于刻面分类和潜在语义分析(LSA,Latent Semantic Analysis)的文本聚类算法。首先引入刻面分类思想,将文本特征词汇划分为主题性刻面和描述性刻面,选取主题性刻面包含的特征词汇构建词汇-文本矩阵,降低了矩阵的维度和稀疏程度;然后利用LSA方法将高维的特征空间投射到低维的潜在语义空间中,不仅进一步缩小了词汇-文本矩阵的规模,而且能更好的挖掘网页文本的语义信息。最后结合网页文本数据集进行了主题聚类实验论证,验证了基于刻面分类和LSA的网络群体事件主题聚类算法聚类结果的准确性和高效性。
[Abstract]:With the rapid development of economy and culture in China, the social and economic structure of our country has entered a period of rapid transformation.The huge network group and the social economic contradiction are intertwined together, together with the promotion of the "Internet" action plan, which makes the network group events in our country present the trend of large number, large scale, complex theme and background in recent years.The frequent occurrence of network group events has seriously affected and even endangered the stability of social order and the peace of the people, and has also been attached great importance by the relevant government departments.The key to monitor network group events effectively lies in getting the topic information of network group events quickly and timely.Topic clustering is the main technology to realize topic recognition at present. How to use topic clustering technology to obtain network group events from complex network information has become a hot topic for many scholars at home and abroad to study and explore.In this paper, the topic clustering of network group events is studied. The main work includes the following two aspects: 1) first, we study and improve the keyword extraction method of news page text.The traditional keyword extraction method is mainly based on the word frequency feature of the vocabulary, but the text form of the web page text is different from that of the ordinary text, so the effect of the traditional keyword extraction method is not ideal.On the basis of the keyword extraction method based on word frequency feature, this paper analyzes the characteristics of the web page text, combines the information of lexical part of speech, location feature and word co-occurrence feature, and gives appropriate adjustment parameters for each feature information.This paper forms a formula for calculating the lexical weight of a variety of feature combinations, which is used to extract the keywords of news pages. (2) aiming at the high dimensional sparse data existing in the traditional text clustering algorithm based on vector space model,Due to the lack of semantic information, a text clustering algorithm based on facet classification and latent Semantic analysis is proposed in this paper.Firstly, by introducing the idea of facet classification, the text feature vocabulary is divided into thematic etch and descriptive facet, and the feature words contained in thematic bread are selected to construct the lexical text matrix, which reduces the dimension and sparsity of the matrix.Then the high-dimensional feature space is projected into the low-dimensional latent semantic space by using the LSA method, which not only reduces the size of the lexical-text matrix, but also can better mine the semantic information of the web page text.Finally, the experimental results of topic clustering based on the text data set of web pages are presented to verify the accuracy and efficiency of the clustering algorithm based on facet classification and LSA.
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【相似文献】
相关期刊论文 前10条
1 陈雪;郭书杰;朱会;;动态权重的数字化刻面分类模式研究[J];舰船电子工程;2009年12期
2 余金山;刘云城;;基于刻面分类和本体的类库检索[J];微型机与应用;2010年23期
3 王渊峰,薛云皎,张涌,朱三元,钱乐秋;刻面分类构件的匹配模型[J];软件学报;2003年03期
4 徐小华;;建立有可能重新使用的软件图书馆[J];淮南师范学院学报;2006年03期
5 李颖;李闯;;基于刻面描述和术语的构件检索算法[J];通化师范学院学报;2008年12期
6 龚双;刘波;刘佩珊;;基于刻面描述的构件检索匹配方法应用研究[J];计算机应用与软件;2009年10期
7 付青华;林宁;冯惠;周平;;基于刻面分类的构件检索系统的设计与实现[J];计算机应用与软件;2010年06期
8 宋海涛;孙延明;郑时雄;;基于语义的产品分类刻面自动抽取[J];商场现代化;2007年07期
9 范菁;刘韬;熊丽荣;;信用构件的刻面分类及检索方法研究[J];计算机系统应用;2008年06期
10 王渊峰,张涌,任洪敏,朱三元,钱乐秋;基于刻面描述的构件检索[J];软件学报;2002年08期
相关会议论文 前1条
1 施炜;贾晓辉;邓志凌;乐嘉锦;;构件检索的刻面索引研究[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
相关重要报纸文章 前4条
1 本报记者 周岩;“世纪之星”天然蓝宝石[N];中国矿业报;2002年
2 记者 俞家烨;美国宝石学院在沪举办研讨会[N];中国黄金报;2006年
3 唐仲兴 李军;锆石[N];中国矿业报;2002年
4 李蔓;真诚美首创梅花钻石[N];中国黄金报;2003年
相关硕士学位论文 前10条
1 刘帅;结合质量评价的构件刻面描述与检索研究[D];昆明理工大学;2015年
2 邹后孝;藏语话题刻面情感识别研究及实现[D];西北民族大学;2016年
3 冯遵倡;基于刻面分类的网络群体事件主题聚类研究[D];江苏科技大学;2016年
4 宋士涛;基于本体与刻面相结合的构件检索研究[D];山东师范大学;2011年
5 袁冬娟;基于刻面描述的水资源领域的构件检索方法[D];河海大学;2007年
6 周清清;基于本体与刻面描述相结合的构件检索研究[D];江西师范大学;2008年
7 张韬;基于刻面描述的构件检索方法及实现[D];华中科技大学;2008年
8 邹博;基于刻面分类的软件构件检索的研究[D];哈尔滨工程大学;2006年
9 马亚飞;基于刻面描述的可复用构件库的研究[D];江西理工大学;2013年
10 孟闻天;基于刻面描述的可重用软件构件检索技术的研究[D];大连海事大学;2005年
,本文编号:1757564
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1757564.html