当前位置:主页 > 管理论文 > 移动网络论文 >

网页分类中的标签权重自动优化研究

发布时间:2017-04-30 12:14

  本文关键词:网页分类中的标签权重自动优化研究,由笔耕文化传播整理发布。


【摘要】:近几年来,随着互联网的蓬勃发展以及移动互联网时代的来临,人们的工作和生活越来越离不开互联网,互联网成为了人们获取相关信息和资讯的最主要渠道。所以需要更加高效的Web数据挖掘技术。网页分类是Web数据挖掘的基础技术,因而成为十分重要的研究课题。 本文主要的工作围绕如何更加有效地对网页进行特征表示进行展开,分析了标签权重系数自动调优的必要性,介绍了各种优化算法的基本原理,详细分析了其各自的优缺点,着重介绍了差分进化算法,并设计了一种基于改进的差分进化算法的标签权重系数自动寻优方法,具体工作如下: (1)针对差分进化算法容易陷入局部最优解的缺点,提出了一种对差分进化算法的改进方法。与其他优化算法相比,差分进化算法具有更好的效率和全局寻优能力,但是其缺点也是显著的。差分进化算法的局部搜索能力较弱,从而使算法过早的收敛。为解决上述缺点,提出了一种对差分进化算法的选择策略进行改进的方案,并通过基准测试函数对其进行了验证,实验结果表明了改进方案的优越性。 (2)针对现有的手工指定标签权重系数的缺点,设计和实现了一种基于改进的差分进化算法的标签权重系数自动寻优方案。网页中不同HTML标签的内容对网页的概述能力是不同的,在表述网页文本时,需要对不同的标签赋予不同的权重系数。现有的网页分类技术多基于个人经验对标签的权重系数进行手工指定,因而具有一定的随机性,且不能适应样本集的变化。因而,需要有效的优化算法对标签权重进行自动设定。本文设计的方案以一组标签的权重系数作为寻优对象,并使用本文提出的改进的差分进化算法作为调优方法,实验结果表明,该方案可以充分利用样本集的特性,可以有效地进一步提高分类的准确率。 (3)设计了一个网页自动训练和预测系统,并在训练中加入了标签权重系数自动寻优功能。该系统包括HTML解析、分词、特征选择、特征表示以及分类模型设计等,同时包括本文提出的标签权重系数自动寻优模块。
【关键词】:Web数据挖掘 差分进化算法 选择策略 网页分类 半结构化特征
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要5-6
  • ABSTRACT6-8
  • 目录8-10
  • 表格10-11
  • 插图11-12
  • 第一章 绪论12-16
  • 1.1 课题的研究背景和意义12-13
  • 1.2 国内外研究现状13-14
  • 1.3 课题的主要研究内容14
  • 1.4 本文的组织结构14-16
  • 第二章 网页分类相关技术研究16-30
  • 2.1 HTML解析16-17
  • 2.2 分词17-19
  • 2.2.1 英文分词17-18
  • 2.2.2 中文分词18-19
  • 2.3 有用词提取19-20
  • 2.4 特征选择20-21
  • 2.4.1 文档频率20
  • 2.4.2 信息增益20-21
  • 2.4.3 互信息21
  • 2.5 特征表示21-22
  • 2.6 分类算法22-27
  • 2.6.1 朴素贝叶斯22-23
  • 2.6.2 KNN算法23-24
  • 2.6.3 神经网络24-25
  • 2.6.4 决策树25
  • 2.6.5 支持向量机25-27
  • 2.7 分类器评价27-29
  • 2.8 本章小结29-30
  • 第三章 标签权重自动调优研究30-52
  • 3.1 网页的结构特征分析30-32
  • 3.2 演化算法概述32-43
  • 3.2.1 遗传算法33-34
  • 3.2.2 粒子群算法34-36
  • 3.2.3 差分进化算法36-43
  • 3.3 差分进化算法研究综述43-45
  • 3.4 差分进化算法的改进45-47
  • 3.5 基于改进的差分进化算法的标签权重自动调优设计47-50
  • 3.6 本章小结50-52
  • 第四章 实验52-60
  • 4.1 实验环境52-53
  • 4.2 实验训练相关准备53-54
  • 4.3 实验步骤54-55
  • 4.4 实验数据收集以及分析55-58
  • 4.5 本章小结58-60
  • 第五章 工作总结和展望60-62
  • 5.1 工作总结60
  • 5.2 展望60-62
  • 参考文献62-66
  • 致谢66-68
  • 在读期间发表的学术论文与取得的其他研究成果68

【参考文献】

中国期刊全文数据库 前10条

1 高翔;海洋;;遗传算法应用[J];赤峰学院学报(自然科学版);2009年03期

2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期

3 龙树全;赵正文;唐华;;中文分词算法概述[J];电脑知识与技术;2009年10期

4 杨维,李歧强;粒子群优化算法综述[J];中国工程科学;2004年05期

5 方强,陈德钊,俞欢军,吴晓华;基于优进策略的差分进化算法及其化工应用[J];化工学报;2004年04期

6 张劲松;袁健;;回溯正向匹配中文分词算法[J];计算机工程与应用;2009年22期

7 陈涛;雍龙泉;邓方安;杨晓;;基于差分进化算法的支持向量机参数选择[J];计算机工程与应用;2011年05期

8 兰均;施化吉;李星毅;徐敏;;基于特征词复合权重的关联网页分类[J];计算机科学;2011年03期

9 刘波;王凌;金以慧;;差分进化算法研究进展[J];控制与决策;2007年07期

10 蒋宗礼;时福林;;基于链接关系的网页分类优化算法[J];计算机与现代化;2014年05期


  本文关键词:网页分类中的标签权重自动优化研究,,由笔耕文化传播整理发布。



本文编号:336844

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/336844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户28c78***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com