当前位置:主页 > 科技论文 > 信息工程论文 >

网络文本信息聚类算法研究与应用

发布时间:2016-08-30 10:41

  本文关键词:网络文本信息聚类算法研究与应用,由笔耕文化传播整理发布。


《北京交通大学》 2009年

网络文本信息聚类算法研究与应用

张树魁  

【摘要】: 随着计算机网络技术在全球范围内的迅速发展与普及,网络信息资源日趋丰富且内容复杂多样,其中既有大量进步、健康的信息,也不乏反动、迷信的内容。因此,如何对这样庞大的信息资源进行快速有效的检索分析,对网络舆论进行准确的预测引导成为一个重要而迫切的研究课题。 于是,数据挖掘这门技术应运而生,它以数据库技术为基础,融合统计学、机器学习、模糊学等多门学科的成果,研究如何从数据库中提取隐含的、未知的有潜在应用价值的信息或模式。聚类分析在这项技术中占有重要的位置,它通过比较数据的相似性和差异性将一个数据集合分割成几个称为类的子集,从而发现数据信息的内在特征和分布规律。 本论文在系统回顾网络信息检索、数据挖掘和聚类算法应用研究现状的基础上,总结了目前通用的聚类算法存在的问题,试图设计一种适用于中文网络文本信息的聚类算法,并进而设计实现一个网络信息聚类系统。 本论文的研究内容和创新工作主要体现在以下几点: (1)分析了几种通用的聚类算法,包括基于划分、基于层次、基于密度、基于网格和基于模型聚类算法,通过实验数据分析比较了几种算法的性能和优缺点,分析了它们在网络信息聚类应用中的缺陷。 (2)研究了中文网络信息聚类应用中的几种关键技术,包括分词技术、文本表示、特征降维、权重分析和相似度计算。 (3)引入二叉检索树对后缀树聚类算法在中文网络信息聚类中的应用进行了研究和改进。 (4)对典型的k-平均算法、后缀树聚类算法和改进后的算法进行实验分析,在算法准确率和时间复杂度上进行了比较。 (5)设计并实现了基于改进后缀树聚类算法的网络文本信息聚类系统,通过系统运行实验验证了改进的后缀树聚类算法在中文网络文本信息聚类中的可行性和有效性。

【关键词】:
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1
【目录】:

  • 致谢5-6
  • 中文摘要6-7
  • ABSTRACT7-12
  • 1 绪论12-18
  • 1.1 研究背景与意义12-13
  • 1.2 国内外研究现状及发展趋势13-16
  • 1.2.1 聚类算法研究现状13-15
  • 1.2.2 未来发展趋势15-16
  • 1.3 论文主要工作及结构16-18
  • 1.3.1 研究工作和目标16
  • 1.3.2 论文内容和结构16-18
  • 2 数据挖掘与聚类分析概述18-27
  • 2.1 数据挖掘概述18-20
  • 2.1.1 数据挖掘定义18-19
  • 2.1.2 数据挖掘功能简介19-20
  • 2.2 聚类分析概述20-22
  • 2.2.1 聚类分析的定义20
  • 2.2.2 聚类分析的数据类型20-21
  • 2.2.3 聚类算法的典型要求21-22
  • 2.3 聚类算法分类和比较22-25
  • 2.3.1 基于划分的方法22-23
  • 2.3.2 基于层次的方法23
  • 2.3.3 基于密度的方法23-24
  • 2.3.4 基于网格的方法24
  • 2.3.5 基于模型的方法24-25
  • 2.3.6 各算法性能综述25
  • 2.4 本章小节25-27
  • 3 聚类分析预处理技术27-34
  • 3.1 分词技术27-29
  • 3.1.1 基于词典匹配的分词方法28
  • 3.1.2 基于理解的分词方法28-29
  • 3.1.3 基于统计的分词方法29
  • 3.2 文本表示29-31
  • 3.3 特征降维31-32
  • 3.4 权重评价32
  • 3.5 相似度计算32-33
  • 3.6 本章小节33-34
  • 4 后缀树聚类算法的研究改进与实验分析34-48
  • 4.1 后缀树聚类算法描述与实现34-42
  • 4.1.1 后缀树的定义34-35
  • 4.1.2 后缀树的构造方法35-37
  • 4.1.3 后缀树聚类算法实现37-39
  • 4.1.4 基于压缩二叉检索树的改进算法39-42
  • 4.2 实验分析与算法评价42-47
  • 4.2.1 实验设计42-44
  • 4.2.2 聚类准确率比较44-45
  • 4.2.3 时间复杂度比较45-46
  • 4.2.4 算法评价46-47
  • 4.3 本章小节47-48
  • 5 基于改进后缀树算法的聚类系统设计与实现48-60
  • 5.1 系统功能概述48-49
  • 5.2 系统体系结构49-50
  • 5.3 系统设计实现50-57
  • 5.3.1 技术路线和总体设计50-51
  • 5.3.2 网络信息获取模块51-53
  • 5.3.3 文档处理模块53-54
  • 5.3.4 聚类处理模块54-55
  • 5.3.5 聚类结果显示模块55-57
  • 5.4 系统运行测试57-59
  • 5.5 本章小节59-60
  • 6 总结及展望60-62
  • 6.1 总结60
  • 6.2 研究展望60-62
  • 参考文献62-64
  • 附录A64-65
  • 作者简历65-67
  • 学位论文数据集67
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【相似文献】

    中国期刊全文数据库 前10条

    1 刘亚楠;;网络信息检索在统计中的应用[J];现代营销(学苑版);2011年08期

    2 晏创业,张玉峰;智能检索中的网络数据挖掘技术探索[J];中国图书馆学报;2002年03期

    3 宋瑞祺;;Web文本数据挖掘关键技术及其在网络检索中的应用[J];山西财经大学学报(高等教育版);2007年S1期

    4 吕志花;;网络信息挖掘及其在搜索引擎方面的应用[J];微计算机信息;2008年06期

    5 陶清连;;网络信息检索效率分析[J];农业图书情报学刊;2006年04期

    6 高镔;;聚类在网络信息检索中的辅助作用[J];信息技术;2010年04期

    7 倪莉;;网络环境下的自然语言检索[J];当代图书馆;1999年04期

    8 王勇;;网络信息检索对图书馆信息服务的影响[J];现代情报;2006年04期

    9 杨玉焕;;网络信息检索对图书馆信息服务的影响[J];长沙民政职业技术学院学报;2007年02期

    10 邱宏,付琼;联机检索与网络信息检索的比较研究[J];东北电力学院学报;2001年02期

    中国重要会议论文全文数据库 前10条

    1 郭学军;陈晓云;;粗集方法在数据挖掘中的应用[A];第十六届全国数据库学术会议论文集[C];1999年

    2 徐慧;;基于Web的文献数据挖掘[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年

    3 孙迎;;医院信息的数据挖掘与方法研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年

    4 薛晓东;李海玲;;数据挖掘的客户关系管理应用[A];科技、工程与经济社会协调发展——河南省第四届青年学术年会论文集(下册)[C];2004年

    5 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病“阴阳类证”辨证规范的数据挖掘研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年

    6 薛鲁华;张楠;;聚类分析在Web数据挖掘中的应用[A];北京市第十三次统计科学讨论会论文选编[C];2006年

    7 朱扬勇;黄超;;基于多维模型的交互式数据挖掘框架[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

    8 陈涛;胡学钢;陈秀美;;基于数据挖掘的教学质量评价体系分析[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年

    9 王星;谢邦昌;戴稳胜;;数据挖掘在保险业中的应用[A];北京市第十二次统计科学讨论会论文选编[C];2003年

    10 郭建文;黄燕;印鉴;杨小波;梁兆辉;;建立中风病阴阳类证辨证规范的数据挖掘研究[A];2010中国医师协会中西医结合医师大会摘要集[C];2010年

    中国重要报纸全文数据库 前10条

    1 李开宇 黄建军 田长春;[N];中国国防报;2009年

    2 华莱士;[N];国际金融报;2003年

    3 记者 晏燕;[N];科技日报;2006年

    4 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;[N];人民邮电;2006年

    5 张立明;[N];网络世界;2003年

    6 中圣信息技术有限公司 李辉;[N];中国计算机报;2001年

    7 田红生;[N];中国经济时报;2002年

    8 王广宇;[N];中国计算机报;2004年

    9 周蓉蓉;[N];计算机世界;2004年

    10 张舒博;[N];首都建设报;2009年

    中国博士学位论文全文数据库 前10条

    1 孙丽;工艺知识管理及其若干关键技术研究[D];大连交通大学;2005年

    2 胡志坤;复杂有色金属熔炼过程操作模式智能优化方法研究[D];中南大学;2005年

    3 刘革平;基于数据挖掘的远程学习评价研究[D];西南师范大学;2005年

    4 刘寨华;基于临床数据分析的病毒性心肌炎证候演变规律研究[D];黑龙江中医药大学;2006年

    5 王川;基因芯片数据管理及数据挖掘[D];中国科学院研究生院(上海生命科学研究院);2004年

    6 王涛;挖掘序列模式和结构化模式的精简集[D];华中科技大学;2006年

    7 郭斯羽;动态数据中的数据挖掘研究[D];浙江大学;2002年

    8 李旭升;贝叶斯网络分类模型研究及其在信用评估中的应用[D];西南交通大学;2007年

    9 刘东升;面向连锁零售企业的客户关系管理模型(R-CRM)研究[D];浙江工商大学;2008年

    10 余红;网络时政论坛舆论领袖研究[D];华中科技大学;2007年

    中国硕士学位论文全文数据库 前10条

    1 廖赛恩;养生方数据挖掘分析系统的研制[D];湖南中医药大学;2010年

    2 李坤然;数据挖掘在股市趋势预测的应用研究[D];中南林业科技大学;2008年

    3 郑宏;数据挖掘可视化技术的研究与实现[D];西安电子科技大学;2010年

    4 杜金刚;数据挖掘在电信客户关系管理及数据业务营销中的应用[D];北京邮电大学;2010年

    5 徐路;基于决策树的数据挖掘算法的研究及其在实际中的应用[D];电子科技大学;2009年

    6 梁小鸥;数据挖掘在高职教学管理中的应用[D];华南理工大学;2011年

    7 王浩;数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究[D];华东理工大学;2012年

    8 黎卫英;数据挖掘在中职幼教课程改革中的应用[D];福建师范大学;2009年

    9 张煜辉;数据挖掘和SPC在生产过程质量控制中应用研究[D];上海交通大学;2009年

    10 刘华敏;数据挖掘在高职院校学生成绩分析中的应用[D];安徽大学;2011年


      本文关键词:网络文本信息聚类算法研究与应用,,由笔耕文化传播整理发布。



    本文编号:105208

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/105208.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户3ef2c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com