基于词嵌入文本聚类技术的研究与实现
本文关键词:基于词嵌入文本聚类技术的研究与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网的发展和电子媒体的繁荣,新闻文本数据的规模日益增长,而对新闻文本的组织、摘要和浏览会花费大量的时间。为了保证新闻的时效性,同时让读者方便地获取特定种类的新闻,并使新闻的阅读量最大化,需要对大规模的新闻文档集进行快速的分组。文本聚类技术做为一种非监督的机器学习方法,能够在没有人工标注的情况下,对未分类的文本进行快速的初步分组,因此具有一定的灵活性和较高的自动化处理能力,故而使用文本聚类技术可以对大规模的新闻文本集进行有效地组织、摘要和导航。然而,传统的基于词袋模型(Bag of Words)的文本聚类方法可以根据词频统计信息等特征对文本中词性进行加权,区别特征贡献度,但无法捕捉文本中词汇的语义关系;基于主题模型的文本聚类方法可以捕捉到新闻中词语与文章的共现,提取新闻的隐含主题,却不能捕捉词与词之间的共现关系;近年由Mikolov[1]等人提出的Skip-Gram方法通过统计词与上下文的共现,训练得到的词向量能够携带词汇间的语义关联,在很多机器学习任务中表现优秀,但却无法处理汉语中约20%的多义词、同义词和近义词对文本语义的影响;而且,流行的文本聚类方法大都在词语、短语这样短文本上进行聚类是表现较好,却无法有效在新闻这样的长文本上进行聚类。本文提出一个新的新闻文本聚类方法TDE-DC(Topic Document Embedding based Document Clustering),通过结合Skip-Gram模型、主题模型和TF-IDF加权方法的优点,克服各模型单独使用时的缺陷来获得更好的新闻长文本聚类效果。TDE-DC文本聚类方法主要完成了如下工作:1)使用词汇和词汇所在文本的隐含主题一起作为输入,通过Skip-Gram模型对上下文(Context)中的词汇进行预测,从而得到同时携带词汇间隐含语义关系和隐含主题的主题词向量(Topic Word Embedding),即获得了高质量的词向量表示,也有效地克服了汉语中高频出现的多义词、同义词及近义词对文本含义的特殊影响;2)以TF-IDF值为权重,将主题词向量进行加权线性累加得到新闻文本的向量表示,即主题文档向量(Topic Document Embedding),获得了一种低维度的文本向量表示,有效地对长文本的向量表示进行了降维。3)使用主题文档向量之间的余弦距离最为文本的相似度函数,并利用传统的聚类方法对新闻长文本向量进行聚类。实验表明,使用TDEDC模型对新闻长文本聚类能够获得较为满意的结果。
【关键词】:TDE-DC 长文本聚类 LDA Skip-Gram TF-IDF
【学位授予单位】:东华大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 绪论10-17
- 1.1 课题研究背景和意义10-11
- 1.2 国内外研究现状11-15
- 1.3 课题研究内容15
- 1.4 论文组织结构15-17
- 第2章 文本聚类的方法和过程17-28
- 2.1 引言17
- 2.2 文本预处理17-21
- 2.2.1 文本格式化18-19
- 2.2.2 文本分词及词性标注19
- 2.2.3 去停用词和词性过滤19-21
- 2.3 文本向量表示与特征降维21-26
- 2.3.1 文本向量表示21-22
- 2.3.2 特征降维(Dimensionality Reduction)22-23
- 2.3.3 词袋模型与降维23-24
- 2.3.4 主题模型与降维24-26
- 2.4 常见文本聚类方法26-27
- 2.4.1 K-均值聚类(K-means)26
- 2.4.2 二分K均值聚类(Bisecting K-means)26-27
- 2.5 本章小节27-28
- 第3章 TDE-DC新闻文本聚类方法28-37
- 3.1 TDE-DC模型基本思想28-29
- 3.1.1 新闻长文本聚类的困难28-29
- 3.1.2 解决方法29
- 3.2 主题文档向量TDE的获取29-35
- 3.2.1 通过Skip-Gram获取词向量(Word Embedding)29-33
- 3.2.2 通过LDA获取主题向量(Topic Embedding)33-34
- 3.2.3 主题词向量TWE(Topic Word Embedding)34-35
- 3.2.4 主题文档向量TDE(Topic Document Embedding)35
- 3.3 TDE-DC文本聚类35-36
- 3.3.2 聚类方法的选择35-36
- 3.4 本章小结36-37
- 第4章 算法实现与实验分析37-47
- 4.1 TDE-DC文本聚类的实现37-40
- 4.1.0 数据集38
- 4.1.1 预处理38-39
- 4.1.2 参数设定39-40
- 4.1.3 对比试验40
- 4.2 文本聚类评估指标40-43
- 4.2.1 熵值(Entropy)40-41
- 4.2.2 纯度(purity)41
- 4.2.3 标准化互信息(NMI)41
- 4.2.4 F值41-43
- 4.3 实验分析43-46
- 4.3.1 实验环境43
- 4.3.2 内存使用测试43-44
- 4.3.3 训练消耗时间测试44
- 4.3.4 聚类效果分析44-46
- 4.4 本章小结46-47
- 第5章 总结和展望47-48
- 5.1 总结47
- 5.2 展望47-48
- 参考文献48-51
- 致谢51-52
- 附录52-54
- 附录1计算所汉语词性标记集52-53
- 附录2常用的中文分词工具53-54
- 附录3停用词库54
【相似文献】
中国期刊全文数据库 前10条
1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期
8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期
9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年
2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年
3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年
4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年
6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年
7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年
8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年
10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
本文关键词:基于词嵌入文本聚类技术的研究与实现,,由笔耕文化传播整理发布。
本文编号:441132
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/441132.html