当前位置:主页 > 科技论文 > 电力论文 >

基于数据挖掘的电力信息分类及搜索技术的研究

发布时间:2017-07-16 10:04

  本文关键词:基于数据挖掘的电力信息分类及搜索技术的研究


  更多相关文章: 电力 分词 关联规则 相似度 文本聚类 搜索


【摘要】:目前电力网络日益复杂,电力资源日益庞大,信息资源量爆炸性增长,传统的信息获取方法已经无法完成信息获取任务,从事电力工作或者需求相关电力知识的人员已经体会到很困难从海量多元的信息世界中获取到自己最需要的信息,所以他们越来越需要一种可以有较高满意度的快速高效搜索方案。现在比较成熟的大型通用搜索引擎有时不能满足电力工作者只针对电力信息的搜索,所以一种针对特定电力领域、特定电力人群或特定电力用户需求的基于电力信息单一领域的搜索引擎应运而生,它可以将相关服务和有一定价值的信息提供给人们。本文阐述了基于电力信息的快速搜索方案的研究与实现。本文分析了中文文本聚类的步骤,包括分词,分词采用从左到右的最大匹配算法;权重计算采用tfc算法;电力信息库中的文档和文档之间的相似程度由相似度算法实现;关联规则挖掘采用改进后的Apriori算法:文本聚类采用K-均值聚类算法。综上,论文中的电力搜索方案是单单针对电力信息领域、以数据挖掘算法为基础的,通过这个方案可以提高对电力信息网络资源的利用,通过方案自动理解电力用户的中文语言描述,利用一系列数据挖掘算法,来快速返回相关信息,从而方便用户搜索,电力用户对专业知识需求的满意度将随着查询效率的提高而大大提升。
【关键词】:电力 分词 关联规则 相似度 文本聚类 搜索
【学位授予单位】:华北电力大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TM769
【目录】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 绪论10-15
  • 1.1 论文背景、目的和意义10-11
  • 1.2 国内外研究动态11-13
  • 1.3 论文的组织结构13-14
  • 1.4 论文取得的主要成绩14-15
  • 第2章 数据仓库与数据挖掘技术15-22
  • 2.1 数据仓库15-17
  • 2.1.1 数据仓库的方案结构15-16
  • 2.1.2 数据仓库数据分析16
  • 2.1.3 数据仓库中的索引16-17
  • 2.2 数据挖掘17-20
  • 2.2.1 数据挖掘技术17-18
  • 2.2.2 数据挖掘算法18
  • 2.2.3 数据挖掘的应用18-20
  • 2.3 数据仓库与数据挖掘的结合20-22
  • 2.3.1 数据仓库与数据挖掘两者的区别20
  • 2.3.2 数据仓库与数据挖掘之间的联系20
  • 2.3.3 数据仓库中数据存储的特点20-21
  • 2.3.4 数据仓库中数据挖掘的特点21-22
  • 第3章 文本挖掘概述22-25
  • 3.1 文本挖掘概念22
  • 3.2 文本挖掘的过程22-23
  • 3.3 文本挖掘功能23-24
  • 3.4 论文中文本挖掘的应用24-25
  • 第4章 相关算法研究、改进及应用25-37
  • 4.1 关联规则算法及其应用25-29
  • 4.1.1 关联规则的定义和过程25-26
  • 4.1.2 关联规则典型算法26-27
  • 4.1.3 经典频繁项目集方法27-28
  • 4.1.4 APRIORI算法的应用和实现28-29
  • 4.2 文本聚类算法的改进和实现29-37
  • 4.2.1 文本聚类算法的过程和功能29-31
  • 4.2.2 中文切词算法及演示31-33
  • 4.2.3 特征向量表示和权重的计算33-34
  • 4.2.4 关键词关联度与文挡相似度算法的研究34-36
  • 4.2.5 K-MEANS聚类算法及应用36-37
  • 第5章 搜索方案详细设计及实现37-45
  • 5.1 开发工具简介37-42
  • 5.1.1 JAVA发展历程37-38
  • 5.1.2 ACCESS主要功能介绍38-39
  • 5.1.3 创建电力信息数据仓库39-42
  • 5.2 搜索方案的设计与实现42-45
  • 5.2.1 搜索方案功能介绍42
  • 5.2.2 方案总体设计42-43
  • 5.2.3 搜索算法设计图43-45
  • 第6章 方案测试结果分析45-47
  • 6.1 文本聚类实验结果分析45-46
  • 6.2 方案搜索实验结果及分析46-47
  • 第7章 结束语47-49
  • 7.1 论文总结47
  • 7.2 前景展望47-48
  • 7.3 收获与感想48-49
  • 参考文献49-53
  • 致谢53-54
  • 作者简介54

【参考文献】

中国期刊全文数据库 前2条

1 张朝晖,陆玉昌,张钹;发掘多值属性的关联规则[J];软件学报;1998年11期

2 唐崇忻;;基于华文教育主题的专业搜索引擎的结构分析与程序设计[J];现代情报;2007年07期



本文编号:548120

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/dianlilw/548120.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb96a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com