基于复合词生成的网络热点话题识别及描述算法
本文关键词: 网络热点话题识别 热词抽取 复合词聚类 出处:《图书情报工作》2016年23期 论文类型:期刊论文
【摘要】:[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。
[Abstract]:[Objective / meaning: to automatically identify hot topics and extract meaningful strings of words to describe hot events in new media texts such as massive online news and Weibo. It is of great significance to identify and describe the network public opinion automatically. [Methods / procedures] in the existing hot spot description word extraction methods. Using association rules or multivariate word combination method, there are many problems in the process of extraction, such as noise words are more and the meaning of feature words is enlarged or transferred. In this paper, a description word extraction method based on compound word generation is proposed. A one-trip clustering algorithm is used to cluster the news text on the extracted semantic more accurate description word set to automatically identify the hot topics on the network and rank the hot topics. [Results / conclusion] the experimental results on the text dataset of Tencent News event show that. Compared with the traditional word feature extraction method, the method proposed in this paper has better clustering ability and cluster description ability.
【作者单位】: 广东外语外贸大学语言工程与计算重点实验室;广东外语外贸大学信息学院;广东外语外贸大学图书馆;
【基金】:国家自然科学基金项目“面向中国英语学习者的英文作文全自动评分算法及诊断反馈技术研究”(项目编号:61402119) 广东省普通高校科技创新项目“面向网络英文文本的涉华舆情分析关键技术研究”(项目编号:2013KJCX0071)研究成果之一
【分类号】:TP391.1
【正文快照】: 随着微博和网络新闻等新媒体的出现,实体社会中的各种突发事件会第一时间在网络媒体中呈现,面对海量网络新媒体数据,如何自动识别和挖掘网络热点话题和热点事件是当前的研究热点[1-4]。针对热点话题的自动识别,聚类方法被广泛使用,如于满泉等[5]针对事件特点使用多层聚类对话
【相似文献】
相关期刊论文 前10条
1 ;网络热点[J];西部广播电视;2009年02期
2 张亮;;“围观”究竟能否改进中国——主流媒体引导网络热点的思考[J];新闻实践;2011年02期
3 曹健;;网络舆论为何乏力[J];IT时代周刊;2011年18期
4 商亚美;周夏宇;;大学生网络热点话题参与倾向调查及分析[J];新闻世界;2013年05期
5 曾莉;王成龙;姜平;;党报如何释疑网络热点——《网事回应》功能探析[J];新闻前哨;2013年06期
6 孙立军;;介入网络热点:不妄言,不失语[J];新闻战线;2013年10期
7 雷钟哲;;“调侃”,还是“造假”?[J];新闻战线;2013年09期
8 ;不同往昔'97网络热点新闻在线选出[J];信息经济与技术;1998年02期
9 ;网络热点[J];西部广播电视;2009年03期
10 ;网络热点[J];西部广播电视;2009年04期
相关会议论文 前1条
1 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
相关重要报纸文章 前10条
1 ;挖掘网络热点的正效应[N];人民武警报;2014年
2 特约撰稿 小童;网上购物面临“成长的烦恼”[N];通信信息报;2004年
3 孙国徽 中国海洋石油总公司新闻中心;理性分析网络热点[N];中国社会科学报;2011年
4 记者 刘永新;市民政局回应网络热点问题[N];深圳特区报;2011年
5 戴晓蓉;网络热点成为政协委员提案[N];深圳特区报;2007年
6 记者 韦忠南 张磊 通讯员 郑法轩;天门架起一座网络“连心桥”[N];湖北日报;2011年
7 本报记者 余飞;网络与传统媒体应携手辟谣[N];法制日报;2013年
8 慎海雄;及时坦诚回应人民群众的关切[N];新华每日电讯;2012年
9 田宝锋 国家广电总局;从网络热点透视网络暴力[N];中国社会科学报;2009年
10 严实;网络不是化外之地[N];中国社会科学报;2013年
相关博士学位论文 前1条
1 彭菲菲;网络热点话题发现的关键技术研究[D];中国矿业大学(北京);2012年
相关硕士学位论文 前9条
1 张静;基于微博的网络热点发现模型及平台研究[D];华中科技大学;2010年
2 张帆;网络热点事件背景下的我国政府回应研究[D];聊城大学;2015年
3 汪s,
本文编号:1459553
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1459553.html