一种新的网络热点话题提取方法
本文选题:热点话题 + 极大相容块 ; 参考:《小型微型计算机系统》2013年04期
【摘要】:网络热点话题提取是网络舆情分析的重要手段,已成为信息检索领域研究的热点内容之一.传统聚类方法因其聚类结果不允许相交等因素,暴露了其在基于(主题)词聚类进行话题发现中的诸多缺点.本文基于小世界理论建立词的共现网络模型并去除大量冗余词,然后运用极大相容块技术并基于过滤后的词共现网络实现对相交话题的提取,获取网络热点话题.本文方法与传统聚类方法有本质区别,基于(主题)词聚类进行话题发现具有独特的优势,较好克服了已有方法的缺点.实验说明了本文方法对提取网络热点话题是有效和可行的,比同类算法具有更好的性能,且具有较好的可伸缩性.
[Abstract]:Network hot topic extraction is an important means of network public opinion analysis, and has become one of the hot topics in the field of information retrieval. Due to the fact that the traditional clustering method does not allow the intersection of the clustering results, it exposes its shortcomings in topic discovery based on (topic) word clustering. Based on the theory of small world, this paper establishes a co-occurrence network model of words and removes a large number of redundant words. Then we use the technology of maximal compatible block and the filtered co-occurrence network to extract intersecting topics and obtain hot topics on the network. The method in this paper is different from the traditional clustering method. The topic discovery based on topic clustering has its unique advantages and overcomes the shortcomings of the existing methods. Experiments show that this method is effective and feasible for extracting hot topics in network, and has better performance and better scalability than similar algorithms.
【作者单位】: 广西大学计算机与电子信息学院;
【基金】:国家自然科学基金项目(61063032)资助 广西自然科学基金项目(2012GXNSFAA053225)资助 广西教育厅科研基金项目(201012MS010)资助
【分类号】:TP393.09
【参考文献】
相关期刊论文 前5条
1 洪宇;张宇;范基礼;刘挺;李生;;基于语义域语言模型的中文话题关联检测[J];软件学报;2008年09期
2 曹玉娟;牛振东;赵X;彭学平;;基于概念和语义网络的近似网页检测算法[J];软件学报;2011年08期
3 龙志yN;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
4 曾依灵;许洪波;;网络热点信息发现研究[J];通信学报;2007年12期
5 杨宁;唐常杰;王悦;陈瑜;郑皎凌;李红军;;基于流信息距离的多文本流热点挖掘[J];软件学报;2011年08期
【共引文献】
相关期刊论文 前10条
1 王小华;徐宁;谌志群;;基于共词分析的文本主题词聚类与主题发现[J];情报科学;2011年11期
2 余传明;张小青;陈雷;;基于LDA模型的评论热点挖掘:原理与实现[J];情报理论与实践;2010年05期
3 逯万辉;马建霞;赵迎光;;爆发词识别与主题探测技术研究综述[J];情报理论与实践;2012年06期
4 陆蓓;程肖;谌志群;;互联网舆情挖掘研究述略[J];情报资料工作;2010年02期
5 龙志yN;程葳;;基于词聚类的热点话题检测算法[J];计算机工程与设计;2011年06期
6 康小利;;基于时序的突发事件跟踪研究[J];数字技术与应用;2011年04期
7 刘霁;周亚东;高峰;赵俊舟;薛峰;;一种基于文本语义的网络敏感话题识别方法[J];深圳信息职业技术学院学报;2011年03期
8 饶洋辉;叶良;常红旭;程洁;;新话题监测研究进展[J];图书馆杂志;2009年07期
9 陈焱;;网络舆情话题的数据立方体模型分析[J];图书情报工作;2011年24期
10 刘晓娟;杨倩;;基于文献计量学的热点话题演化比较研究[J];图书情报工作网刊;2012年05期
相关会议论文 前6条
1 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
3 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
4 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
5 单斌;李芳;;基于种子文档和话题模型的话题演化研究[A];第六届全国信息检索学术会议论文集[C];2010年
6 曹俊喜;刘云;徐希源;;电力行业网络舆情监测分析技术研究与系统设计[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
相关博士学位论文 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
5 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
8 姚益平;基于能耗与作物生产潜力的中国温室气候区划[D];南京农业大学;2011年
9 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
10 钟茂生;基于内容相关度计算的文本结构分析方法研究[D];上海交通大学;2010年
相关硕士学位论文 前10条
1 李振;网络舆情预测关键技术研究[D];郑州大学;2010年
2 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
3 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
4 印文涛;基于星型K部图的网络视频话题挖掘和可视化的研究[D];浙江大学;2011年
5 白志杰;新闻视频主题追踪技术研究[D];解放军信息工程大学;2009年
6 王允;网络舆情数据获取与话题分析技术研究[D];解放军信息工程大学;2010年
7 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
8 刘嵩;网络中文事件自动检测技术研究[D];解放军信息工程大学;2010年
9 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
10 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
相关期刊论文 前3条
1 柴省三;内容词-共引聚类分析及其在科学结构研究中的应用[J];情报学报;1997年01期
2 鲍军鹏,沈钧毅,刘晓东,宋擒豹;自然语言文档复制检测研究综述[J];软件学报;2003年10期
3 曾依灵;许洪波;;网络热点信息发现研究[J];通信学报;2007年12期
相关硕士学位论文 前2条
1 邹纲;中文新词语自动检测研究[D];中国科学院研究生院(计算技术研究所);2004年
2 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
【相似文献】
相关期刊论文 前10条
1 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期
2 王晓斌;温春;石昭祥;;基于独立分量分析的隐蔽Web领域聚类[J];计算机工程;2009年07期
3 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
4 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
5 朱烨行;戴冠中;李晓宇;慕德俊;;一种文本聚类方法及BBS浏览机制研究[J];微电子学与计算机;2006年08期
6 傅华忠;茅剑;;基于DBSCAN聚类算法的Web文本挖掘[J];科技信息;2007年01期
7 赵晓静;;Web文本挖掘综述[J];电脑学习;2008年05期
8 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
9 马辉民 ,胡凌 ,郭潇;文本聚类在Web挖掘系统中的应用[J];统计与决策;2004年06期
10 潘延军;基于浏览内容研究的一种改进的聚类算法[J];中国科技信息;2005年14期
相关会议论文 前3条
1 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
2 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
3 邱立坤;陶然;龙志yN;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
相关博士学位论文 前1条
1 杨晓峰;基于机器学习的Web安全检测方法研究[D];南京理工大学;2011年
相关硕士学位论文 前10条
1 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
2 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
3 张俊艳;基于SVM有聚类指导的Web中文文本分类器的研究及其实现[D];福州大学;2004年
4 那力嘉;基于个人信息管理的邮件处理系统[D];天津大学;2004年
5 杨文忠;基于近似网页聚类算法的Web文本数据挖掘技术的研究与应用[D];湖南大学;2005年
6 潘延军;基于用户浏览内容的Web用户浏览行为个性化研究[D];天津大学;2005年
7 闫瑞;博客数据特征提取与基于分类的垃圾博客过滤[D];中国科学技术大学;2009年
8 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
9 戴景波;小文本聚类技术及其在电子邮件中的应用研究[D];东北大学;2011年
10 周鑫;带噪声的文本聚类及其在反垃圾邮件中的应用[D];广东工业大学;2012年
,本文编号:1969360
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1969360.html