基于卷积神经网络的文献分析
本文选题:卷积神经网络 切入点:word2vec 出处:《长春工业大学》2017年硕士论文 论文类型:学位论文
【摘要】:在互联网上的文本信息量飞速增长的同时,人们对互联网上的论文文献进行查阅和整理所需要耗费的时间也越来越多。在这种背景下,利用文本聚类技术来对海量的文献进行分类整理,具有非常重要的应用前景与研究意义。文本聚类是文本挖掘的一项重要技术,能够广泛应用于文本挖掘与信息检索等方面,在大规模文本集的组织与浏览、文本集层级归类的自动生成方面都具有重要的应用价值。文本聚类的首要问题是如何将文本数据以数学形式表示出来,同时传统的文本聚类算法忽略了文本中单词之间的语义相关性,以及传统聚类算法存在聚类结果不稳定等问题。本文主要是针对以上问题对文本聚类进行研究。本文使用搜狗中文语料库、复旦大学中文语料库和哈尔滨工业大学中文语料库中的中文文本数据作为实验的数据集,通过利用word2vec工具对文本数据做词向量转化、利用卷积神经网络对文本数据进行特征提取以及利用基于K-means改进的KSDM聚类算法对文本数据进行聚类,达到对论文文献聚类的目的。本文主要工作如下:1、本文首先探讨了文本聚类算法的研究意义及国内外研究现状;分析了当前传统的文本聚类算法存在的不足;2、研究了常用的几种文本聚类算法,卷积神经网络的基本原理,以及词向量的转变和word2vec工具的基本原理。3、设计了基于卷积神经网络的文本特征提取方法。搭建了卷积神经网络模型,选取了卷积神经网络的各项参数。通过实验验证本文设计的基于卷积神经网络的文本特征提取方法的有效性。4、设计了基于k-means改进的KSDM聚类算法。在传统的K-means算法的基础上,针对其自身的不足提出了一种新的孤立点检测算法和一种新的聚类中心选取算法。实验结果证明了KSDM算法的有效性。5、在理论研究的基础上,将word2vec工具、卷积神经网络和KSDM聚类算法相结合,提出了基于卷积神经网络的文献分析框架。首先需要对文本数据进行分词、去除停用词、以及词向量转化等预处理过程,然后将得到词向量存储到向量矩阵中并输入到预先训练的卷积神经网络中来提取文本特征,最后,将得到的特征输入到KSDM聚类算法中进行聚类,已实现对测试文献聚类。实验结果验证,本文算法有效的提高了现有的文本聚类算法的准确度,并且具有较高的扩展性和灵活性。
[Abstract]:With the rapid growth of text information on the Internet, it takes more and more time for people to consult and organize the papers and documents on the Internet. Text clustering is an important technology in text mining, which can be widely used in text mining and information retrieval. The organization and browsing of large-scale text sets and the automatic generation of text set classification have important application value. The most important problem of text clustering is how to express the text data in mathematical form. At the same time, the traditional text clustering algorithm ignores the semantic correlation between the words in the text. And the traditional clustering algorithm has some problems, such as the instability of clustering results. This paper mainly focuses on the research of text clustering in view of the above problems. The Chinese text data in the Chinese Corpus of Fudan University and the Chinese Corpus of Harbin Polytechnic University are used as the experimental data sets, and the word vector transformation of the text data is done by using word2vec tool. Using convolutional neural network to extract the feature of text data, and using the improved KSDM clustering algorithm based on K-means to cluster the text data. The main work of this paper is as follows: 1. Firstly, this paper discusses the significance of text clustering algorithm and the research status at home and abroad. This paper analyzes the shortcomings of the traditional text clustering algorithms and studies the basic principle of convolution neural network. Based on the transformation of word vector and the basic principle of word2vec tool, a text feature extraction method based on convolutional neural network is designed, and a convolutional neural network model is built. The parameters of the convolutional neural network are selected. The effectiveness of the text feature extraction method based on convolutional neural network is verified by experiments. Finally, an improved KSDM clustering algorithm based on k-means is designed, which is based on the traditional K-means algorithm. A new outlier detection algorithm and a new clustering center selection algorithm are proposed to overcome its shortcomings. The experimental results show that the KSDM algorithm is effective. 5. On the basis of theoretical research, a new word2vec tool is proposed. Combining convolutional neural network with KSDM clustering algorithm, a document analysis framework based on convolutional neural network is proposed. Then the obtained word vector is stored in the vector matrix and input into the pre-trained convolution neural network to extract the text features. Finally, the obtained features are input into the KSDM clustering algorithm for clustering. The experimental results show that the proposed algorithm can effectively improve the accuracy of the existing text clustering algorithms and has a high scalability and flexibility.
【学位授予单位】:长春工业大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP183
【相似文献】
相关期刊论文 前10条
1 云中客;新的神经网络来自于仿生学[J];物理;2001年10期
2 唐春明,高协平;进化神经网络的研究进展[J];系统工程与电子技术;2001年10期
3 李智;一种基于神经网络的煤炭调运优化方法[J];长沙铁道学院学报;2003年02期
4 程科,王士同,杨静宇;新型模糊形态神经网络及其应用研究[J];计算机工程与应用;2004年21期
5 王凡,孟立凡;关于使用神经网络推定操作者疲劳的研究[J];人类工效学;2004年03期
6 周丽晖;从统计角度看神经网络[J];统计教育;2005年06期
7 赵奇 ,刘开第 ,庞彦军;灰色补偿神经网络及其应用研究[J];微计算机信息;2005年14期
8 袁婷;;神经网络在股票市场预测中的应用[J];软件导刊;2006年05期
9 尚晋;杨有;;从神经网络的过去谈科学发展观[J];重庆三峡学院学报;2006年03期
10 杨钟瑾;;神经网络的过去、现在和将来[J];青年探索;2006年04期
相关会议论文 前10条
1 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年
2 周树德;王岩;孙增圻;孙富春;;量子神经网络[A];2003年中国智能自动化会议论文集(上册)[C];2003年
3 罗山;张琳;范文新;;基于神经网络和简单规划的识别融合算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
4 郭爱克;马尽文;丁康;;序言(二)[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
5 钟义信;;知识论:神经网络的新机遇——纪念中国神经网络10周年[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
6 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
7 金龙;朱诗武;赵成志;陈宁;;数值预报产品的神经网络释用预报应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 田金亭;;神经网络在中学生创造力评估中的应用[A];第十二届全国心理学学术大会论文摘要集[C];2009年
9 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
10 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年
2 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年
3 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年
4 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年
5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
6 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年
7 健康时报特约记者 张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
8 刘力;我半导体神经网络技术及应用研究达国际先进水平[N];中国电子报;2001年
9 ;神经网络和模糊逻辑[N];世界金属导报;2002年
10 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
相关博士学位论文 前10条
1 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
2 李素芳;基于神经网络的无线通信算法研究[D];山东大学;2015年
3 石艳超;忆阻神经网络的混沌性及几类时滞神经网络的同步研究[D];电子科技大学;2014年
4 王新迎;基于随机映射神经网络的多元时间序列预测方法研究[D];大连理工大学;2015年
5 付爱民;极速学习机的训练残差、稳定性及泛化能力研究[D];中国农业大学;2015年
6 李辉;基于粒计算的神经网络及集成方法研究[D];中国矿业大学;2015年
7 王卫苹;复杂网络几类同步控制策略研究及稳定性分析[D];北京邮电大学;2015年
8 张海军;基于云计算的神经网络并行实现及其学习方法研究[D];华南理工大学;2015年
9 李艳晴;风速时间序列预测算法研究[D];北京科技大学;2016年
10 陈辉;多维超精密定位系统建模与控制关键技术研究[D];东南大学;2015年
相关硕士学位论文 前10条
1 章颖;混合不确定性模块化神经网络与高校效益预测的研究[D];华南理工大学;2015年
2 贾文静;基于改进型神经网络的风力发电系统预测及控制研究[D];燕山大学;2015年
3 李慧芳;基于忆阻器的涡卷混沌系统及其电路仿真[D];西南大学;2015年
4 陈彦至;神经网络降维算法研究与应用[D];华南理工大学;2015年
5 董哲康;基于忆阻器的组合电路及神经网络研究[D];西南大学;2015年
6 武创举;基于神经网络的遥感图像分类研究[D];昆明理工大学;2015年
7 李志杰;基于神经网络的上证指数预测研究[D];华南理工大学;2015年
8 陈少吉;基于神经网络血压预测研究与系统实现[D];华南理工大学;2015年
9 张韬;几类时滞神经网络稳定性分析[D];渤海大学;2015年
10 邵雪莹;几类时滞不确定神经网络的稳定性分析[D];渤海大学;2015年
,本文编号:1606318
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/1606318.html