微博文本处理及话题分析方法研究
本文选题:微博短文本 + 特征扩展 ; 参考:《北京信息科技大学》2017年硕士论文
【摘要】:现今的微博,俨然已经成为一个话题发布、传播的平台。基于这个平台产生的微博文本数量巨大,其中蕴含着众多的信息,包括商业信息、最新资讯信息、用户的行为及关系信息等,这些信息可能蕴含着众多话题,也可能在传播过程中产生各种各样的话题。这些话题一部分具有明显标记,称之为显性话题,而有些话题在微博文本中并不能直接显示出来,需要经过特殊分析处理和数据挖掘才能发现并追踪,我们把这样的话题称为隐性话题。隐性话题虽然不能直接在文本中标记出来,但其在社交媒体中的影响是非常重要的,如何对微博文本进行分析并发现和追踪这些隐性话题,已经成为微博研究领域的重要内容,对于社会媒体的舆情分析、舆论引导具有重要的意义,为此,开展微博文本的处理方法及相关话题分析研究显得十分必要,本论文将进行这方面的相关研究。主要的研究工作包括以下五个方面:(1)微博数据资源库建设方法提出了一种基于微博关键词搜索的话题内容爬取方法,获取蕴含相应关键词的微博内容及其对应的评论信息。通过研究常用的微博数据资源爬取及存储技术,设计了微博数据资源库的分类分层级别和存储结构,完成了微博内容库、用户关注关系库、博主信息库和微博话题资源库的建设。整理了具有80W词容量的用户词典,并应用于微博文本分词。(2)微博短文本的特征扩展策略提出了基于Word2Vec模型构建微博上下文相关词词表的算法,并通过词表和微博标签信息扩展微博文本中的关键词,解决了微博文本高维、稀疏特点给文本处理带来的问题。还提出了微博文本关键词提取方法及词向量中相似词和相关词的区分方法。比较了基于知网和同义词词林的短文本扩展策略。结果证明,在微博文本聚类中输入经过Word2Vec词向量相关词及微博标签扩展后的文本,其聚类准确率有显著提高。(3)微博文本的深度表示模型及相似度计算方法提出了基于文本深度表示模型的微博句子相似度计算方法。比较了基于TF-IDF方法、基于词向量加权和方法和句向量训练模型方法对文本相似度计算的效果。结果表明,采用语义词库的文本深度模型对微博短、长文本进行相似度计算的效果最佳。而基于句向量模型的方法,应用于长文本的相似度计算后,其效果虽然也很好,但该方法对于短文本却无能为力。(4)基于组合聚类算法及话题判断模型的微博话题分析技术提出了组合聚类算法及微博话题判断模型。结合基于密度的聚类方法和K-Means聚类方法,改进现有K-Means聚类算法不能预测话题分类数和随机选择初始中心的缺陷,同时将文本扩展和针对微博文本的句向量表示和相似度计算方法应用于K-Means聚类,得到了更好的微博话题聚类结果集。利用话题的时间变化及话题粒度可变属性,对追踪到的微博某话题集进行时间-频次建模,并以此为标准判断话题检测任务的结果是否为异常话题,实现对微博话题的判断和动态追踪。(5)微博话题分析系统的设计与实现采用Java、Hadoop和Hive等技术,编程实现了微博话题分析系统。介绍了微博话题分析系统的结构框架、各模块功能设计和实现步骤。并通过测试语料集在设计的系统中检验了本文方法的可行性和有效性。
[Abstract]:This paper presents a new method of micro blog data resource pool construction , which contains many topics , such as business information , latest information , user ' s behavior and relationship information . ( 4 ) Based on the clustering algorithm and the topic judgment model , the clustering algorithm and the micro blog topic judgment model are put forward . Combining the density - based clustering method and the K - Means clustering method , we improve the existing K - Means clustering algorithm to predict the topic classification number and the random selection initial center .
【学位授予单位】:北京信息科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.092
【相似文献】
相关期刊论文 前10条
1 陈敏,汤晓安;在Microsoft Access中引入文本文件[J];微型电脑应用;1995年02期
2 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
3 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
4 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
5 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
6 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
7 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
8 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
9 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
10 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
相关会议论文 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
相关重要报纸文章 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
相关博士学位论文 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年
4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年
5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年
6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年
7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
相关硕士学位论文 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:1761003
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1761003.html