网络文本信息聚类算法研究与应用
本文关键词:网络文本信息聚类算法研究与应用,由笔耕文化传播整理发布。
《北京交通大学》 2009年
网络文本信息聚类算法研究与应用
张树魁
【摘要】: 随着计算机网络技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富且内容复杂多样,其中既有大量进步、健康的信息,也不乏反动、迷信的内容。因此,如何对这样庞大的信息资源进行快速有效的检索分析,对网络舆论进行准确的预测引导成为一个重要而迫切的研究课题。 于是,数据挖掘这门技术应运而生,它以数据库技术为基础,融合统计学、机器学习、模糊学等多门学科的成果,研究如何从数据库中提取隐含的、未知的有潜在应用价值的信息或模式。聚类分析在这项技术中占有重要的位置,它通过比较数据的相似性和差异性将一个数据集合分割成几个称为类的子集,从而发现数据信息的内在特征和分布规律。 本论文在系统回顾网络信息检索、数据挖掘和聚类算法应用研究现状的基础上,总结了目前通用的聚类算法存在的问题,试图设计一种适用于中文网络文本信息的聚类算法,并进而设计实现一个网络信息聚类系统。 本论文的研究内容和创新工作主要体现在以下几点: (1)分析了几种通用的聚类算法,包括基于划分、基于层次、基于密度、基于网格和基于模型聚类算法,通过实验数据分析比较了几种算法的性能和优缺点,分析了它们在网络信息聚类应用中的缺陷。 (2)研究了中文网络信息聚类应用中的几种关键技术,包括分词技术、文本表示、特征降维、权重分析和相似度计算。 (3)引入二叉检索树对后缀树聚类算法在中文网络信息聚类中的应用进行了研究和改进。 (4)对典型的k-平均算法、后缀树聚类算法和改进后的算法进行实验分析,在算法准确率和时间复杂度上进行了比较。 (5)设计并实现了基于改进后缀树聚类算法的网络文本信息聚类系统,通过系统运行实验验证了改进的后缀树聚类算法在中文网络文本信息聚类中的可行性和有效性。
【关键词】:
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:
下载全文 更多同类文献
CAJ全文下载
(如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)
CAJViewer阅读器支持CAJ、PDF文件格式
【相似文献】
中国期刊全文数据库 前10条
1 刘亚楠;;网络信息检索在统计中的应用[J];现代营销(学苑版);2011年08期
2 晏创业,张玉峰;智能检索中的网络数据挖掘技术探索[J];中国图书馆学报;2002年03期
3 宋瑞祺;;Web文本数据挖掘关键技术及其在网络检索中的应用[J];山西财经大学学报(高等教育版);2007年S1期
4 吕志花;;网络信息挖掘及其在搜索引擎方面的应用[J];微计算机信息;2008年06期
5 陶清连;;网络信息检索效率分析[J];农业图书情报学刊;2006年04期
6 高镔;;聚类在网络信息检索中的辅助作用[J];信息技术;2010年04期
7 倪莉;;网络环境下的自然语言检索[J];当代图书馆;1999年04期
8 王勇;;网络信息检索对图书馆信息服务的影响[J];现代情报;2006年04期
9 杨玉焕;;网络信息检索对图书馆信息服务的影响[J];长沙民政职业技术学院学报;2007年02期
10 邱宏,付琼;联机检索与网络信息检索的比较研究[J];东北电力学院学报;2001年02期
中国重要会议论文全文数据库 前10条
1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年
2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年
4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年
5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年
7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年
10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年
中国重要报纸全文数据库 前10条
1 李开宇 黄建军 田长春;[N];中国国防报;2009年
2 华莱士;[N];国际金融报;2003年
3 记者 晏燕;[N];科技日报;2006年
4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;[N];人民邮电;2006年
5 张立明;[N];网络世界;2003年
6 中圣信息技术有限公司 李辉;[N];中国计算机报;2001年
7 田红生;[N];中国经济时报;2002年
8 王广宇;[N];中国计算机报;2004年
9 周蓉蓉;[N];计算机世界;2004年
10 张舒博;[N];首都建设报;2009年
中国博士学位论文全文数据库 前10条
1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年
2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年
3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年
4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年
5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年
6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年
7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年
8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年
9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年
10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年
2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年
3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年
4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年
5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年
6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年
7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年
8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年
9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年
10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年
本文关键词:网络文本信息聚类算法研究与应用,,由笔耕文化传播整理发布。
本文编号:105208
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/105208.html