融合word2vec和Single-Pass的微博话题检测方法研究
发布时间:2021-01-01 06:45
近年来,微博借助于其自身的草根性、便捷性和对时事的迅速传播性越来越受到大众的欢迎,成为中国大众了解时事和参与热门话题讨论的主流媒体。微博是一种通过关注机制共享的短文本实时信息的广播式社交媒体和网络平台,基于该平台信息可以通过用户关系进行信息共享、传播和获取。用户间的相互交流和传播产生了多种多样的话题,微博的即时性极大的推进了话题的发展,形成并传播了热门话题。在一些引起广大网友讨论的微博话题中,参与阅读和互动的用户数量已达到过数千万,这些话题通常蕴含着重要的信息,并具有很强的社会影响力度,引起了众多专家学者的关注。因此,如何从大量的微博文本中准确的挖掘出热门话题具有重要意义。基于此,本文研究的工作围绕提高微博话题检测的准确性主要包括以下三个方面:(1)提出一种基于Word2vec和句子结构的内容树文本表示方法,提高计算文本相似度的准确性首先,在文本中提取特征词,将该特征词与文本分词后的其它词语根据皮尔逊相关系数进行相关度计算,创建内容树;其次,借助内容树将词语根据相邻词之间的相关性构造依赖于句子结构的词向量;然后对得到的所有词向量求平均值得到句向量表示;最后将该方法通过中文文本分类和文本...
【文章来源】:山东师范大学山东省
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
CBOW模型
a图?2-4?PV-DBOW?模型??eC模型的优点是能够成功捕获对于文档表示有用但未知的功能,而为固定的大小,不会出现维度灾难的问题;同时存在的缺点在于特缺乏解释性,文档向量中的每个值都不能提供任何有关文档的明确
图3-丨某影评内容树示例??在该部分中,根据TF-IDF和皮尔逊相关系数可以对文本的词语根据词语之间的相??关度建立内容树,如图3-2所示。建立内容树后,我们需要根据建立的内容树进行更新??词向量,将新更新后的词向量进行求平均值得到句向量的表示。??ITF-1DF?‘?|特征伉W大的词??卜本対1?1?(wordl)??Word2vcc??词向置?丨乂'‘'、.!■’(』_创违内容树??图3-2创建内容树流程??12??
【参考文献】:
期刊论文
[1]基于word2vec词模型的中文短文本分类方法[J]. 高明霞,李经纬. 山东大学学报(工学版). 2019(02)
[2]一种基于word2vec的文本分类方法[J]. 薛炜明,侯霞,李宁. 北京信息科技大学学报(自然科学版). 2018(01)
[3]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]网络舆情话题检测技术研究[J]. 张尚韬. 广东石油化工学院学报. 2017(03)
[6]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]基于LDA模型和多层聚类的微博话题检测[J]. 刘红兵,李文坤,张仰森. 计算机技术与发展. 2016(06)
[9]基于LDA的新闻话题子话题划分方法[J]. 赵爱华,刘培玉,郑燕. 小型微型计算机系统. 2013(04)
[10]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
博士论文
[1]基于内容的互联网舆情信息挖掘关键技术研究[D]. 刘玉国.山东大学 2011
硕士论文
[1]基于半监督DPMM的新闻话题检测研究[D]. 姚冬冬.河北大学 2017
[2]基于主题模型的话题聚类算法的研究[D]. 张丹.北京邮电大学 2017
[3]基于大数据的互联网热点话题挖掘的研究与实现[D]. 赵宗飞.华南理工大学 2016
[4]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[5]深度词汇网络学习舆情监测关键技术的研究[D]. 冯佳明.北京化工大学 2015
[6]网络舆情的热点检测及趋势分析研究[D]. 张敬.华南理工大学 2013
[7]基于文本的网络舆情话题跟踪的研究[D]. 廖秀玲.昆明理工大学 2012
[8]中文短语相似度计算方法研究及应用[D]. 王莹莹.长沙理工大学 2008
本文编号:2951122
【文章来源】:山东师范大学山东省
【文章页数】:44 页
【学位级别】:硕士
【部分图文】:
CBOW模型
a图?2-4?PV-DBOW?模型??eC模型的优点是能够成功捕获对于文档表示有用但未知的功能,而为固定的大小,不会出现维度灾难的问题;同时存在的缺点在于特缺乏解释性,文档向量中的每个值都不能提供任何有关文档的明确
图3-丨某影评内容树示例??在该部分中,根据TF-IDF和皮尔逊相关系数可以对文本的词语根据词语之间的相??关度建立内容树,如图3-2所示。建立内容树后,我们需要根据建立的内容树进行更新??词向量,将新更新后的词向量进行求平均值得到句向量的表示。??ITF-1DF?‘?|特征伉W大的词??卜本対1?1?(wordl)??Word2vcc??词向置?丨乂'‘'、.!■’(』_创违内容树??图3-2创建内容树流程??12??
【参考文献】:
期刊论文
[1]基于word2vec词模型的中文短文本分类方法[J]. 高明霞,李经纬. 山东大学学报(工学版). 2019(02)
[2]一种基于word2vec的文本分类方法[J]. 薛炜明,侯霞,李宁. 北京信息科技大学学报(自然科学版). 2018(01)
[3]基于Word2vec的句子语义相似度计算研究[J]. 李晓,解辉,李立杰. 计算机科学. 2017(09)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]网络舆情话题检测技术研究[J]. 张尚韬. 广东石油化工学院学报. 2017(03)
[6]基于改进的OLDA模型话题检测及演化分析[J]. 余本功,张卫春,王龙飞. 情报杂志. 2017(02)
[7]基于Word2Vec的一种文档向量表示[J]. 唐明,朱磊,邹显春. 计算机科学. 2016(06)
[8]基于LDA模型和多层聚类的微博话题检测[J]. 刘红兵,李文坤,张仰森. 计算机技术与发展. 2016(06)
[9]基于LDA的新闻话题子话题划分方法[J]. 赵爱华,刘培玉,郑燕. 小型微型计算机系统. 2013(04)
[10]国内中文自动分词技术研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(02)
博士论文
[1]基于内容的互联网舆情信息挖掘关键技术研究[D]. 刘玉国.山东大学 2011
硕士论文
[1]基于半监督DPMM的新闻话题检测研究[D]. 姚冬冬.河北大学 2017
[2]基于主题模型的话题聚类算法的研究[D]. 张丹.北京邮电大学 2017
[3]基于大数据的互联网热点话题挖掘的研究与实现[D]. 赵宗飞.华南理工大学 2016
[4]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[5]深度词汇网络学习舆情监测关键技术的研究[D]. 冯佳明.北京化工大学 2015
[6]网络舆情的热点检测及趋势分析研究[D]. 张敬.华南理工大学 2013
[7]基于文本的网络舆情话题跟踪的研究[D]. 廖秀玲.昆明理工大学 2012
[8]中文短语相似度计算方法研究及应用[D]. 王莹莹.长沙理工大学 2008
本文编号:2951122
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2951122.html