中文微博新词与热点话题发现技术研究
发布时间:2017-04-13 19:23
本文关键词:中文微博新词与热点话题发现技术研究,,由笔耕文化传播整理发布。
【摘要】:互联网的发展带动了以微博为代表的新媒体的广泛应用,在海量的微博文本中会产生大量的新词,给微博领域的相关研究带来困难;此外,信息会在用户数庞大的微博平台中不断发酵,形成热点话题,但是用户很难准确的掌握微博平台上发酵的热点话题。需要使用计算机的方法发现热点话题。主要研究工作如下:微博新词发现研究方面,本文提出规则与N-gram算法相结合的方法提取候选新词。首先研究新词的构成模式,确定本文新词研究的范围。然后根据新词的构成模式,制定相关的规则提取分词后的碎片,针对提取的碎片,使用N-gram算法进行候选字串的提取,通过训练垃圾词典和词频过滤候选字串,得到实验所需的候选新词列表。最后以CRF为框架,不断的加入新词的语言与统计特征研究特征组合对新词发现的影响。实验表明,本文的候选新词提取算法较为明显地提升了新词发现的性能。微博热点话题发现研究方面,包括文本相似度计算与文本聚类。文本相似度计算方面,提出了基于余弦法则与A值矩阵相结合的相似度算法,首先选择LDA模型进行特征选择,计算特征项的A值;然后以经典的TF-IDF算法计算特征项的权重,同时构建微博文本的VSM模型,根据余弦法则计算文本向量间的余弦值;最后通过参数调节特征项权值与语义间的联系,使聚类更准确,提高微博话题发现算法的性能。微博文本聚类方面,根据用户关注关系和转发评论关系改进Single-Pass聚类算法,通过设置双相似度阈值,判断用户关注与转发评论关系进行聚类,得到初始话题类,最后采用CURE聚类算法合并初始话题类,弥补了话题聚类精度不够高的缺点。
【关键词】:微博 新词发现 热点话题 聚类
【学位授予单位】:湖南工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.092
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-14
- 1.1 课题选题背景与意义9-10
- 1.2 研究现状10-12
- 1.2.1 新词发现技术10-11
- 1.2.2 微博热点话题发现技术11-12
- 1.3 本文主要内容与组织结构12-14
- 1.3.1 本文主要研究内容12-13
- 1.3.2 组织结构13-14
- 第二章 相关背景知识与技术简介14-26
- 2.1 微博及其特点14-15
- 2.1.1 微博简介14-15
- 2.1.2 微博特点15
- 2.2 相关概念15-17
- 2.2.1 新词15-16
- 2.2.2 热点话题16-17
- 2.3 特征选择17-19
- 2.3.1 互信息17-18
- 2.3.2 文档频率18
- 2.3.3 信息增益18-19
- 2.4 文本模型19-21
- 2.4.1 布尔模型19
- 2.4.2 向量空间模型19-20
- 2.4.3 统计语言模型20-21
- 2.5 聚类算法21-24
- 2.5.1 基于密度的聚类算法21
- 2.5.2 基于划分的聚类算法21-22
- 2.5.3 层次聚类算法22-24
- 2.5.4 其他聚类算法24
- 2.6 本章小结24-26
- 第三章 微博新词发现26-41
- 3.1 新词模式分析26-27
- 3.2 微博新词发现流程27-28
- 3.3 候选新词提取28-32
- 3.3.1 预处理29-30
- 3.3.2 分词30
- 3.3.3 候选新词提取算法30-32
- 3.4 基于C RF的微博新词发现32-35
- 3.4.1 条件随机场(C RF)模型简介32-33
- 3.4.2 条件随机场特点33
- 3.4.3 算法描述33-35
- 3.5 实验与结果分析35-40
- 3.5.1 实验条件35-36
- 3.5.2 评价标准36
- 3.5.3 实验结果与分析36-40
- 3.6 本章小结40-41
- 第四章 微博热点话题发现41-58
- 4.1 微博热点话题发现算法思想41-42
- 4.1.1 传统热点话题发现算法思想41
- 4.1.2 微博热点发现算法思想41-42
- 4.2 微博文本建模42-46
- 4.2.1 微博文本预处理42-43
- 4.2.2 构建文本模型43-46
- 4.3 微博热点话题发现算法46-53
- 4.3.1 话题相似度计算46-49
- 4.3.2 微博热点话题发现算法描述49-53
- 4.4 实验与分析53-56
- 4.4.1 实验数据53
- 4.4.2 实验评价标准53
- 4.4.3 相似度参数确定53-54
- 4.4.4 实验结果与分析54-56
- 4.5 本章小结56-58
- 第五章 总结与展望58-60
- 5.1 本文工作总结58-59
- 5.2 本文研究展望59-60
- 参考文献60-63
- 攻读学位期间主要的研究成果63-64
- 致谢64
【参考文献】
中国期刊全文数据库 前7条
1 罗智勇;宋柔;;基于多特征的自适应新词识别[J];北京工业大学学报;2007年07期
2 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
3 赵妍;赵学民;;基于CURE的用户聚类算法研究[J];计算机工程与应用;2012年11期
4 杨亮;林原;林鸿飞;;基于情感分布的微博热点事件发现[J];中文信息学报;2012年01期
5 仲兆满;刘宗田;;利用事件影响关系识别文本集合中重要事件的方法[J];模式识别与人工智能;2010年03期
6 魏萌;杨文涛;;基于关键词的微博热点话题实时检测方法[J];计算机与现代化;2013年10期
7 万志华,欧阳为民,张平庸;一种基于划分的动态聚类算法[J];计算机工程与设计;2005年01期
中国硕士学位论文全文数据库 前1条
1 李明;针对特定领域的中文新词发现技术研究[D];南京航空航天大学;2012年
本文关键词:中文微博新词与热点话题发现技术研究,由笔耕文化传播整理发布。
本文编号:304318
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/304318.html