基于聚类算法的文本挖掘研究
发布时间:2021-09-23 19:14
随着移动互联网技术的快速发展,网络数据交互的现象越来越频繁,而交互数据量也呈现指数形式增长。文本数据是这些交互数据的主要呈现方式,而在日常生活中,我们所接触到的最多的文本数据形式则是短文本数据格式。在这样的背景下,如何发掘出这些海量的短文本数据背后的关联关系对于文本数据组织,文本数据归类,基于文本数据的推荐系统的研发等方面都有着重要的意义。由于聚类技术可以发现数据之间的潜在关联,并形成相应的簇结构,因此短文本聚类问题也就成为了我们关注的焦点。短文本数据由于其所包含词项少的特点造成了其特征提取困难等问题。将传统文本聚类模型运用于短文本聚类问题上,往往无法得到有效的簇类结构,给后续应用研究带来了不良影响。Word2Vec词向量模型可以利用中心词项的上下文信息来将中心词项转换为词空间上的一个词向量,相比于传统的向量空间模型它在训练词向量时加入了语义环境的影响,体现出一定的优越性,word2Vec词向量模型思想认为上下文语境相似的词项的语义也应该相似,使得语义相近的词项,其对应的此空间上的词向量也距离更近。在潜在语义分析模型(LSA),概率潜在语义分析模型(PLSA)基础上发展形成的潜在迪利克...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
文本聚类流程图
前馈神经网络语言模型图[4]
循环神经网络语言模型图[4]
【参考文献】:
期刊论文
[1]不同特征对文本聚类效果的比较研究——以新闻文本为例[J]. 张旭,孙玉伟,成颖. 情报理论与实践. 2020(01)
[2]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[3]融合HowNet和BTM模型的短文本聚类方法[J]. 阳小兰,杨威,钱程,朱福喜. 计算机工程与设计. 2017(05)
[4]基于混合策略的中文短文本相似度计算[J]. 宋冬云,郑瑾,张祖平. 计算机工程与应用. 2018(12)
[5]不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J]. 关鹏,王曰芬,傅柱. 图书情报工作. 2016(02)
[6]基于同义词词林扩展的短文本分类[J]. 王东,熊世桓. 兰州理工大学学报. 2015(04)
[7]一个利用小顶堆构造哈夫曼树的C++算法[J]. 付勇. 计算机应用与软件. 2011(03)
[8]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦. 计算机应用研究. 2008(11)
[9]一种基于密度的自适应最优LDA模型选择方法[J]. 曹娟,张勇东,李锦涛,唐胜. 计算机学报. 2008(10)
本文编号:3406259
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
文本聚类流程图
前馈神经网络语言模型图[4]
循环神经网络语言模型图[4]
【参考文献】:
期刊论文
[1]不同特征对文本聚类效果的比较研究——以新闻文本为例[J]. 张旭,孙玉伟,成颖. 情报理论与实践. 2020(01)
[2]文本相似度计算方法研究综述[J]. 陈二静,姜恩波. 数据分析与知识发现. 2017(06)
[3]融合HowNet和BTM模型的短文本聚类方法[J]. 阳小兰,杨威,钱程,朱福喜. 计算机工程与设计. 2017(05)
[4]基于混合策略的中文短文本相似度计算[J]. 宋冬云,郑瑾,张祖平. 计算机工程与应用. 2018(12)
[5]不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J]. 关鹏,王曰芬,傅柱. 图书情报工作. 2016(02)
[6]基于同义词词林扩展的短文本分类[J]. 王东,熊世桓. 兰州理工大学学报. 2015(04)
[7]一个利用小顶堆构造哈夫曼树的C++算法[J]. 付勇. 计算机应用与软件. 2011(03)
[8]基于VSM的文本相似度计算的研究[J]. 郭庆琳,李艳梅,唐琦. 计算机应用研究. 2008(11)
[9]一种基于密度的自适应最优LDA模型选择方法[J]. 曹娟,张勇东,李锦涛,唐胜. 计算机学报. 2008(10)
本文编号:3406259
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3406259.html
最近更新
教材专著