中文微博新词与热点话题发现技术研究

发布时间：2017-04-13 19:23

本文关键词：中文微博新词与热点话题发现技术研究，，由笔耕文化传播整理发布。

【摘要】：互联网的发展带动了以微博为代表的新媒体的广泛应用,在海量的微博文本中会产生大量的新词,给微博领域的相关研究带来困难;此外,信息会在用户数庞大的微博平台中不断发酵,形成热点话题,但是用户很难准确的掌握微博平台上发酵的热点话题。需要使用计算机的方法发现热点话题。主要研究工作如下:微博新词发现研究方面,本文提出规则与N-gram算法相结合的方法提取候选新词。首先研究新词的构成模式,确定本文新词研究的范围。然后根据新词的构成模式,制定相关的规则提取分词后的碎片,针对提取的碎片,使用N-gram算法进行候选字串的提取,通过训练垃圾词典和词频过滤候选字串,得到实验所需的候选新词列表。最后以CRF为框架,不断的加入新词的语言与统计特征研究特征组合对新词发现的影响。实验表明,本文的候选新词提取算法较为明显地提升了新词发现的性能。微博热点话题发现研究方面,包括文本相似度计算与文本聚类。文本相似度计算方面,提出了基于余弦法则与A值矩阵相结合的相似度算法,首先选择LDA模型进行特征选择,计算特征项的A值;然后以经典的TF-IDF算法计算特征项的权重,同时构建微博文本的VSM模型,根据余弦法则计算文本向量间的余弦值;最后通过参数调节特征项权值与语义间的联系,使聚类更准确,提高微博话题发现算法的性能。微博文本聚类方面,根据用户关注关系和转发评论关系改进Single-Pass聚类算法,通过设置双相似度阈值,判断用户关注与转发评论关系进行聚类,得到初始话题类,最后采用CURE聚类算法合并初始话题类,弥补了话题聚类精度不够高的缺点。
【关键词】：微博 新词发现 热点话题 聚类
【学位授予单位】：湖南工业大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP391.1;TP393.092
【目录】：

摘要4-5
ABSTRACT5-9
第一章绪论9-14
1.1 课题选题背景与意义9-10
1.2 研究现状10-12
1.2.1 新词发现技术10-11
1.2.2 微博热点话题发现技术11-12
1.3 本文主要内容与组织结构12-14
1.3.1 本文主要研究内容12-13
1.3.2 组织结构13-14
第二章相关背景知识与技术简介14-26
2.1 微博及其特点14-15
2.1.1 微博简介14-15
2.1.2 微博特点15
2.2 相关概念15-17
2.2.1 新词15-16
2.2.2 热点话题16-17
2.3 特征选择17-19
2.3.1 互信息17-18
2.3.2 文档频率18
2.3.3 信息增益18-19
2.4 文本模型19-21
2.4.1 布尔模型19
2.4.2 向量空间模型19-20
2.4.3 统计语言模型20-21
2.5 聚类算法21-24
2.5.1 基于密度的聚类算法21
2.5.2 基于划分的聚类算法21-22
2.5.3 层次聚类算法22-24
2.5.4 其他聚类算法24
2.6 本章小结24-26
第三章微博新词发现26-41
3.1 新词模式分析26-27
3.2 微博新词发现流程27-28
3.3 候选新词提取28-32
3.3.1 预处理29-30
3.3.2 分词30
3.3.3 候选新词提取算法30-32
3.4 基于C RF的微博新词发现32-35
3.4.1 条件随机场（C RF）模型简介32-33
3.4.2 条件随机场特点33
3.4.3 算法描述33-35
3.5 实验与结果分析35-40
3.5.1 实验条件35-36
3.5.2 评价标准36
3.5.3 实验结果与分析36-40
3.6 本章小结40-41
第四章微博热点话题发现41-58
4.1 微博热点话题发现算法思想41-42
4.1.1 传统热点话题发现算法思想41
4.1.2 微博热点发现算法思想41-42
4.2 微博文本建模42-46
4.2.1 微博文本预处理42-43
4.2.2 构建文本模型43-46
4.3 微博热点话题发现算法46-53
4.3.1 话题相似度计算46-49
4.3.2 微博热点话题发现算法描述49-53
4.4 实验与分析53-56
4.4.1 实验数据53
4.4.2 实验评价标准53
4.4.3 相似度参数确定53-54
4.4.4 实验结果与分析54-56
4.5 本章小结56-58
第五章总结与展望58-60
5.1 本文工作总结58-59
5.2 本文研究展望59-60
参考文献60-63
攻读学位期间主要的研究成果63-64
致谢64

【参考文献】

中国期刊全文数据库前7条

1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期

2 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期

3 赵妍;赵学民;;基于CURE的用户聚类算法研究[J];计算机工程与应用;2012年11期

4 杨亮;林原;林鸿飞;;基于情感分布的微博热点事件发现[J];中文信息学报;2012年01期

5 仲兆满;刘宗田;;利用事件影响关系识别文本集合中重要事件的方法[J];模式识别与人工智能;2010年03期

6 魏萌;杨文涛;;基于关键词的微博热点话题实时检测方法[J];计算机与现代化;2013年10期

7 万志华,欧阳为民,张平庸;一种基于划分的动态聚类算法[J];计算机工程与设计;2005年01期

中国硕士学位论文全文数据库前1条

1 李明;针对特定领域的中文新词发现技术研究[D];南京航空航天大学;2012年

本文关键词：中文微博新词与热点话题发现技术研究，由笔耕文化传播整理发布。

本文编号：304318

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/304318.html

上一篇：软件定义网络的跨域交互及其应用研究
下一篇：基于FPGA的万兆以太网数据分发平台设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|