基于加权Word2vec的微博文本相似度计算方法研究
发布时间:2021-03-05 20:50
随着互联网技术的不断深入发展,各大社交平台出现,产生着大量的文本信息,对这些文本信息进行挖掘处理可以将这些文本数据进行有效合理的分类,也可以通过对这些文本信息的深入挖掘发现网民思想动态、情绪走向等。微博作为互联网技术发展重要的产物之一,由于使用门槛低等特点,使得微博参与者数量非常多,微博关于社会生活事件的讨论度也非常高,因此对其进行文本挖掘分析具有非常重要的意义,与此同时,在文本挖掘领域,文本相似度计算是许多其它文本挖掘应用的基础,能够解决互联网上大量文本的杂乱无序问题,在自然语言处理领域当中非常地重要,能够为后续的文本挖掘处理提供基础支撑。针对微博文本传播特点,做好微博文本相似度计算面临着巨大挑战。本文为解决这一问题,引入词向量优点,通过分析文本相似度计算的总体框架流程,在综合考量文本的语义信息和表层统计信息的基础上,构建了一种新的相似度计算方法。详细地设计和描述了本文设计的文本相似度计算模型的各个模块。本文做的主要工作和得到的研究成果如下:(1)探讨了文本相似度计算的研究发展历程以及研究现状,结合本文实际研究背景给出了文本相似度的定义及内涵、常用的文本表示方法和几种经典的文本相似度...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
论文框架图
图 2. 1 文本预处理工作流程示法文本表示方法中最简单的方法,它在进,而是直接将文本看做是单独的一个一个字符为基本单位的。采用这种方法进处理结果也可能会不同。例如“西安的话,在用字符表示法进行文本表示,采文本。这种文本表示方法非常简单,在利用这种方法进行文本表示前并没有对信息考虑在内,在一些较高智能系统示法
图 3. 1 文本相似度计算核心图建念向量概念[34],它是深度学语进行数字化,将其表示常在几十到几百维),.52672407][35]。研究表明词词语的语义信息,根据文献的语义和语法上解释的特征似性,例如通过词向量之间语中,前两个词语之间的距距离是不相同的,在两组相
【参考文献】:
期刊论文
[1]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan. Tsinghua Science and Technology. 2017(06)
[3]基于词向量和EMD距离的短文本聚类[J]. 黄栋,徐博,许侃,林鸿飞,杨志豪. 山东大学学报(理学版). 2017(07)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]融合词向量的多特征问句相似度计算方法研究[J]. 曹莉丽,王未央. 现代计算机(专业版). 2017(17)
[6]微博文本挖掘研究综述[J]. 余容,李光强,尹健. 情报探索. 2017(05)
[7]基于主题模型的检索结果聚类应用研究[J]. 阮光册,夏磊. 情报杂志. 2017(03)
[8]基于词向量包的自动文摘方法[J]. 白淑霞,鲍玉来,张晖. 现代情报. 2017(02)
[9]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[10]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
硕士论文
[1]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[2]中文文本自动分词技术与算法研究[D]. 许荣荣.郑州大学 2010
本文编号:3065845
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
论文框架图
图 2. 1 文本预处理工作流程示法文本表示方法中最简单的方法,它在进,而是直接将文本看做是单独的一个一个字符为基本单位的。采用这种方法进处理结果也可能会不同。例如“西安的话,在用字符表示法进行文本表示,采文本。这种文本表示方法非常简单,在利用这种方法进行文本表示前并没有对信息考虑在内,在一些较高智能系统示法
图 3. 1 文本相似度计算核心图建念向量概念[34],它是深度学语进行数字化,将其表示常在几十到几百维),.52672407][35]。研究表明词词语的语义信息,根据文献的语义和语法上解释的特征似性,例如通过词向量之间语中,前两个词语之间的距距离是不相同的,在两组相
【参考文献】:
期刊论文
[1]N-gram模型综述[J]. 尹陈,吴敏. 计算机系统应用. 2018(10)
[2]Measuring Similarity of Academic Articles with Semantic Profile and Joint Word Embedding[J]. Ming Liu,Bo Lang,Zepeng Gu,Ahmed Zeeshan. Tsinghua Science and Technology. 2017(06)
[3]基于词向量和EMD距离的短文本聚类[J]. 黄栋,徐博,许侃,林鸿飞,杨志豪. 山东大学学报(理学版). 2017(07)
[4]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[5]融合词向量的多特征问句相似度计算方法研究[J]. 曹莉丽,王未央. 现代计算机(专业版). 2017(17)
[6]微博文本挖掘研究综述[J]. 余容,李光强,尹健. 情报探索. 2017(05)
[7]基于主题模型的检索结果聚类应用研究[J]. 阮光册,夏磊. 情报杂志. 2017(03)
[8]基于词向量包的自动文摘方法[J]. 白淑霞,鲍玉来,张晖. 现代情报. 2017(02)
[9]基于Word2vec的微博短文本分类研究[J]. 张谦,高章敏,刘嘉勇. 信息网络安全. 2017(01)
[10]基于BTM的微博舆情热点发现[J]. 王亚民,胡悦. 情报杂志. 2016(11)
硕士论文
[1]基于word2vec的中文文本相似度研究与实现[D]. 吴多坚.西安电子科技大学 2016
[2]中文文本自动分词技术与算法研究[D]. 许荣荣.郑州大学 2010
本文编号:3065845
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3065845.html