基于模糊逻辑和神经网络的数据及文本挖掘的方法研究
发布时间:2020-04-14 12:57
【摘要】: 数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将模糊逻辑理论应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值。本文研究了基于模糊逻辑和神经网络的数据挖掘和文本挖掘方法,所做主要工作内容包括: 采用自组织特征映射(SOFM)网络来自动确定样本数据隶属函数,并根据相似性的概念,给出了相似度的计算公式,结合Apriori算法,提出了一种挖掘模糊相似关联规则的新算法。 针对传统的模糊聚类需要预先确定聚类数的问题,提出一种新的动态模糊聚类的方法。该方法采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF?IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。本算法具有聚类精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性的问题。 提出了一种新的动态模糊自组织神经网络模型(DFKCN),并将其用于文本聚类中。针对传统模糊自组织神经网络需要预先确定聚类数的问题,DFKCN采用了可自动确定聚类数的动态自组织神经网络(TGSOM)的结构,在DFKCN网络结构中提出新的学习率计算公式,并以模糊聚类中心作为DFKCN网络中对应的神经元的权值,从而提高了聚类的精度,并可提高收敛速度。将DFKCN模型应用到中文文本聚类中,文本的特征向量的表示采用隐含语义分析理论,以体现特征词的语义关系并实现特征词的降维。 提出了一种新的模糊竞争神经网络聚类模型(NFCNNC),并将其应用到文本聚类中。NFCNNC将模糊中心聚类(FCC)算法得到的模糊聚类中心向量作为神经网络的权值,获胜神经元通过比较隶属度值得到。按照FCC算法调整模糊聚类中心向量值(即权值)和神经元的隶属度,当网络稳定时,即可确定聚类数。NFCNNC具有结构简单,运行效率高,聚类精度高的优点,同时克服了传统算法需预先指定聚类数的局限性。 提出一种新的模糊文本关联规则挖掘算法(NFAR)和文本关键字的获得方法,当文本集中存在大量文本,传统的模糊关联规则中的支持度的计算公式不再适用,因而提出新的支持度计算公式。通常用的关联规则在涉及语义问题时,会有冗余规则,隶属函数是预先指定的,引入模糊聚类可克服上述问题;根据TF·IDF首先计算文本特征词的权重,然后计算文本的平均权重作为阈值,权重大于阈值的特征词作为该文本的关键字,将关键字的权重划分成三个属性:高、中、低。利用模糊c均值对关键词的权重进行聚类。再由NFAR算法抽取出文本关联规则。NFAR算法具有运算效率高,规则的精度高的优点。
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:F224
本文编号:2627321
【学位授予单位】:天津大学
【学位级别】:博士
【学位授予年份】:2005
【分类号】:F224
【参考文献】
相关期刊论文 前10条
1 刘永山,汤毅,陈雯柏,曾昭天;数据挖掘技术的研究[J];重庆工业高等专科学校学报;2003年02期
2 王莉,王正欧;TGSOM:一种用于数据聚类的动态自组织映射神经网络[J];电子与信息学报;2003年03期
3 陆建江,刘海峰;数据库中广义模糊关联规则的挖掘[J];工程数学学报;2000年01期
4 高法钦;运用哈希技术进行关联规则挖掘[J];河北建筑科技学院学报;2002年04期
5 杜孝平;罗宪;唐世渭;;频繁项集挖掘中的两种哈希树构建方法[J];计算机科学;2002年12期
6 陆建江;;加权模糊关联规则的研究[J];计算机科学;2003年05期
7 李家福,陆建江,张亚非;模糊聚类算法在汉语文本聚类中的应用[J];计算机工程;2002年04期
8 黄传明;一种基于散列技术和事务压缩的关联规则挖掘算法[J];计算机工程;2003年22期
9 梅馨,邢桂芬;文本挖掘技术综述[J];江苏大学学报(自然科学版);2003年05期
10 黄解军,潘和平,万幼川;数据挖掘的体系框架研究[J];计算机应用研究;2003年05期
,本文编号:2627321
本文链接:https://www.wllwen.com/jingjifazhanlunwen/2627321.html