当前位置:主页 > 管理论文 > 移动网络论文 >

中心聚类和语义特征融合的网页信息文本挖掘方法

发布时间:2018-01-13 17:15

  本文关键词:中心聚类和语义特征融合的网页信息文本挖掘方法 出处:《辽宁工程技术大学学报(自然科学版)》2016年01期  论文类型:期刊论文


  更多相关文章: 中心聚类 语义特征 矩阵 网页信息 文本挖掘


【摘要】:针对网页信息内容丰富且结构复杂,难以准确挖掘的问题,采用中心聚类和语义特征相互融合的方法.利用中心聚类算法确定样本最终的聚类中心,根据每个词在网页中出现的频率和词的上下文语义,构造一个网页-词语的权重映射矩阵,并将语义特征作为中心聚类相似性的判断依据,完成网页文本信息的挖掘.实验结果表明:利用该方法对网页文本进行挖掘,在时间增加不多的情况下,可以获得更高的召回率和准确率.
[Abstract]:In order to solve the problem of rich and complex information structure and difficult to mine accurately, the central clustering algorithm is used to determine the final clustering center of the sample by using the method of the fusion of the central clustering and semantic features. According to the frequency of each word appearing in the web page and the context semantics of the word, a weighted mapping matrix of the web-words is constructed, and the semantic features are taken as the basis for judging the similarity of the central clustering. The experimental results show that the method can obtain higher recall rate and higher accuracy when the time is not much increased.
【作者单位】: 柳州职业技术学院电子信息工程系;
【基金】:广西教育厅科研项目基金项目(201106LX745,201204LX593)
【分类号】:TP393.092;TP391.1
【正文快照】: 0引言21世纪以来,人类社会信息化的进程进一步加快.难以计数的信息呈现在人们的面前,网络已经成为最大的信息储存库,仅中国的网页数量就超过数百亿[1].如此激增的信息量,给人们从中筛选并提取对自己有价值的信息提出了挑战,从而也推动数据挖掘技术飞速发展[2].在各种数据挖掘

【参考文献】

相关期刊论文 前10条

1 魏桂英;高学东;武森;;基于领域本体的个性化文本信息检索[J];辽宁工程技术大学学报(自然科学版);2011年02期

2 毛婷;杨敬辉;杨晶东;;基于模糊聚类的自然语言语义特征[J];辽宁工程技术大学学报(自然科学版);2013年01期

3 郭景峰;赵玉艳;边伟峰;李晶;;基于改进的凝聚性和分离性的层次聚类算法[J];计算机研究与发展;2008年S1期

4 马素琴;施化吉;;阈值优化的文本密度聚类算法[J];计算机工程与应用;2011年17期

5 张玉芳;朱俊;熊忠阳;;改进的概率潜在语义分析下的文本聚类算法[J];计算机应用;2011年03期

6 熊忠阳;暴自强;李智星;张玉芳;;结合LSA的中文谱聚类算法研究[J];计算机应用研究;2010年03期

7 刘一鸣;张化祥;;引入信息增益的层次聚类算法[J];计算机工程与应用;2012年01期

8 王永贵;林琳;刘宪国;;结合双粒子群和K-means的混合文本聚类算法[J];计算机应用研究;2014年02期

9 王秀慧;王丽珍;麻淑芳;;结合语义的改进FTC文本聚类算法[J];计算机工程与设计;2014年02期

10 何祥;骆祥峰;;基于关联语义链网络的文本聚类方法[J];上海大学学报(自然科学版);2014年02期

【共引文献】

相关期刊论文 前10条

1 赵学武;刘向娇;尹孟洋;;数据挖掘常用聚类算法研究[J];电脑知识与技术;2014年16期

2 吕小刚;;基于K-means文本聚类算法研究[J];电脑编程技巧与维护;2014年24期

3 杨秋;张群;王敏;孙莉;;稀疏场景目标的距离像峰值聚类分割成像方法[J];测绘学报;2015年08期

4 安世全;丁进标;高涛;;一种改进的分解-合并聚类方法[J];计算机工程与应用;2011年14期

5 肖凤;郑海健;卢闯;;基于聚类分析的银行客户关系管理策略研究[J];技术经济;2010年01期

6 刘汉强;;免疫克隆选择图划分方法[J];计算机应用研究;2012年09期

7 陈华城;杜学绘;陈性元;夏春涛;;基于兴趣本体的文档敏感信息检测方法[J];计算机应用;2012年11期

8 张爱科;符保龙;;基于高维聚类的探索性文本挖掘算法[J];计算机应用;2013年04期

9 张伟;黄炜;夏利民;;基于广义内容概率潜在语义分析模型的推荐[J];计算机应用;2013年05期

10 吴志媛;钱雪忠;;基于PLSI的标签聚类研究[J];计算机应用研究;2013年05期

相关博士学位论文 前3条

1 钱鹏江;大规模数据集聚类方法研究及应用[D];江南大学;2011年

2 徐建平;再生资源回收利用网络研究[D];东华大学;2011年

3 陈圣兵;基于商空间理论的海量信息检索模型的研究[D];安徽大学;2010年

相关硕士学位论文 前10条

1 苏永昌;基于粒度原理的聚类分析及规则挖掘技术研究[D];武汉理工大学;2011年

2 邓子平;面向医学诊疗的本体自动生成系统的研究与开发[D];广东工业大学;2011年

3 万元元;社会性标签系统的个性化资源推荐[D];天津大学;2012年

4 覃思明;结合时间窗的用户访问兴趣聚类分析[D];中南大学;2010年

5 黄菲菲;半监督层次协同文本聚类研究[D];西南交通大学;2012年

6 郑宇;农信银行多级帐户管理系统设计与实现[D];云南大学;2012年

7 王惠仙;基于SVM的中文文本分类相关算法研究与实现[D];昆明理工大学;2012年

8 丁立朵;半定规划核在垃圾标签检测中的应用研究[D];广西大学;2012年

9 廖丽娇;基于层次聚类的进化树构建算法研究[D];湖南大学;2011年

10 赵利军;基于语义分析的网络服务智能交互系统研究[D];西南交通大学;2013年

【二级参考文献】

相关期刊论文 前10条

1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期

2 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期

3 付宁;乔立岩;彭喜元;;基于改进K-means聚类和霍夫变换的稀疏源混合矩阵盲估计算法[J];电子学报;2009年S1期

4 任三孩;常文革;刘向君;;一种基于小波变换和变尺度圆模板融合的景象匹配算法[J];电子学报;2011年09期

5 张云博;魏春启;孟凡丽;;基于遗传算法的Hopfield神经网络集成[J];辽宁工程技术大学学报(自然科学版);2009年S2期

6 马翔;;粒子群优化BP神经网络用于重复记录检测[J];辽宁工程技术大学学报(自然科学版);2010年05期

7 李娟;;基于本体论的个性化信息检索[J];黑龙江科技信息;2009年35期

8 武成岗,焦文品,田启家,史忠植;基于本体论和多主体的信息检索服务器[J];计算机研究与发展;2001年06期

9 白秋产;金春霞;周海岩;;概念向量文本聚类算法[J];计算机工程与应用;2011年35期

10 蔡晓妍;戴冠中;杨黎斌;;谱聚类算法综述[J];计算机科学;2008年07期

相关博士学位论文 前3条

1 王修力;基于描述复杂性的信息检索理论与若干模型研究[D];北京语言大学;2006年

2 袁方;面向智能信息检索的Web挖掘关键技术研究[D];东北大学;2006年

3 周,

本文编号:1419773


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1419773.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f70cf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com