基于主题词频数特征的文本主题划分
本文选题:搜索引擎 切入点:文本聚类 出处:《计算机应用》2006年08期 论文类型:期刊论文
【摘要】:目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。
[Abstract]:At present, the text-word frequency matrix used in text classification has the characteristics of excessive dimension and sparsity of word frequency, which makes it difficult to calculate. In order to solve this problem, starting from the psychology of choosing the required text when users use search engine, In this paper, a method of topic partitioning based on the frequency feature of theme words is proposed, which is used to screen the theme words of each text category according to the statistical method. Then the text clustering is implemented by using the fuzzy C- mean FCM-based algorithm instead of the single word as the feature. Compared with a text clustering method based on word clustering, this paper makes a comparison between the process and the results, and draws some meaningful conclusions in the implementation and application background.
【作者单位】: 厦门大学软件学院 厦门大学软件学院 厦门大学信息科学与技术学院
【基金】:厦门大学985二期信息创新平台项目资助(0000-X07204)
【分类号】:TP391.1
【共引文献】
相关期刊论文 前10条
1 王宇,杨莉;模糊k-prototypes聚类算法的一种改进算法[J];大连理工大学学报;2003年06期
2 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
3 张岩;赵政;;聚类算法在应急系统中的应用[J];计算机工程与应用;2006年31期
4 汪加才;文巨峰;陈奇;俞瑞钊;;结构化模糊K-prototypes聚类算法[J];计算机科学;2005年05期
5 王家耀;张雪萍;周海燕;;一个用于空间聚类分析的遗传K-均值算法[J];计算机工程;2006年03期
6 刘国营;基于路径聚类的Web用户访问模式发现算法[J];情报杂志;2005年07期
7 赵宇;李兵;李秀;刘文煌;任守榘;;混合属性数据聚类融合算法[J];清华大学学报(自然科学版);2006年10期
8 王宇,杨莉;数据挖掘及在英语借词分类中的应用[J];汕头大学学报(自然科学版);2002年02期
9 蔡江辉,张继福;基于聚类的离群数据挖掘及应用[J];太原重型机械学院学报;2004年04期
10 刘泉凤,陆蓓;数据挖掘中聚类算法的比较研究[J];浙江水利水电专科学校学报;2005年02期
相关博士学位论文 前10条
1 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
2 毛国君;数据挖掘技术与关联规则挖掘算法研究[D];北京工业大学;2003年
3 刘勇国;基于数据挖掘的网络入侵检测研究[D];重庆大学;2003年
4 刘君强;海量数据挖掘技术研究[D];浙江大学;2003年
5 王达;时间序列数据挖掘研究与应用[D];浙江大学;2004年
6 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
7 陈湘涛;数据仓库与数据挖掘技术在新型铝电解控制系统中的应用研究[D];中南大学;2004年
8 王勇献;蛋白质二级结构预测的模型与方法研究[D];国防科学技术大学;2004年
9 李洁;基于自然计算的模糊聚类新算法研究[D];西安电子科技大学;2004年
10 王U,
本文编号:1618949
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1618949.html