基于链接关系的网页分类算法优化
本文关键词:基于链接关系的网页分类算法优化
【摘要】:网络技术的发展和推广,使我们进入了一个信息极其丰富的时代。在这种时代背景下,搜索引擎以其高效和便捷的特性获得了人们的青睐,成为主流的信息获取方式。但是搜索引擎的结果中总是包含很多主题无关的网页,这严重影响了搜索质量,是一个亟待解决的问题。网页分类不仅能够有效的解决这一问题,而且可以使信息资源的组织更合理,对问答系统、信息过滤等都有积极的意义。网页分类已经成为一个重要的研究课题。所以本文对基于链接关系的网页分类算法进行研究,实现一个改进后的网页分类系统。 本文的主要研究工作如下: (1)提出利用网页间的相似度对基于链接关系的网页分类算法进行优化。为了解决该算法中存在的噪声邻域网页干扰问题,在分类时为不同链接关系的邻域网页分别设置相似度阈值,,只有满足条件时才能参与计算,减少了噪声邻域网页的干扰。 (2)使用支持向量机来改善分类效果。网页中的文本内容包含了丰富的信息,利用得当可以继续提高分类的准确性。支持向量机是一种十分有效的分类算法,通过对支持向量机对文本内容分类的结果进行权重计算改进原算法。 (3)根据提出的优化方法,设计并实现了一个网页分类系统。在概要设计部分,从宏观上说明了实现系统的原理、目标、开发环境和总体结构。在详细设计与实现部分,按照分模块的方式进行,论述了各个模块的功能、包含的子模块以及具体处理的过程和实现细节。 (4)为了验证提出优化方法的有效性,实现了两个参照分类器,其分别以支持向量机和原链接关系分类算法为原理。依次对实验数据进行分类,计算三种情况下的查准率、召回率和F1值并进行对比分析。 实验结果表明,优化后的算法效果良好,比改进前性能有所提高。
【关键词】:网页分类 链接关系 支持向量机 相似度
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 绪论8-16
- 1.1 研究背景与意义8-9
- 1.2 网页分类概述与研究现状9-13
- 1.2.1 网页分类概述9-12
- 1.2.2 网页分类研究现状12-13
- 1.3 论文的组织结构13-16
- 第2章 相关技术介绍16-28
- 2.1 文本表示16-18
- 2.1.1 布尔模型16-17
- 2.1.2 向量空间模型17-18
- 2.2 权重计算18-20
- 2.3 特征选择20-22
- 2.3.1 信息增益20-21
- 2.3.2 互信息21
- 2.3.3 χ 2统计量21-22
- 2.4 网页分类22-27
- 2.4.1 支持向量机22-26
- 2.4.2 基于链接关系的网页分类算法26-27
- 2.5 小结27-28
- 第3章 网页分类系统概要设计28-36
- 3.1 系统目标28-29
- 3.2 系统实现原理29-30
- 3.3 系统开发环境30
- 3.4 系统总体结构30-34
- 3.5 本章小结34-36
- 第4章 系统详细设计与实现36-44
- 4.1 系统预处理模块36-38
- 4.2 网页预处理模块38-40
- 4.3 分类模块40-41
- 4.4 效果评价模块41-42
- 4.5 网页分类流程说明42-43
- 4.6 本章小结43-44
- 第5章 实验结果及性能分析44-50
- 5.1 实验数据集44-45
- 5.2 性能评价指标45-46
- 5.3 参数选择46-47
- 5.4 实验结果47-48
- 5.5 本章小结48-50
- 结论50-52
- 参考文献52-56
- 攻读硕士学位期间所发表的学术论文56-58
- 致谢58
【共引文献】
中国期刊全文数据库 前10条
1 蒋辉;张波;;支持向量回归特征提取的ARMA准则——中国社会消费品零售总额预测的实证研究[J];统计与信息论坛;2012年07期
2 范雪莉;冯海泓;原猛;;基于互信息的主成分分析用于声场景分类[J];声学技术;2013年03期
3 计雄飞;张宝林;王霞;魏利伟;;专题服务方式探讨——以标准文献服务为例[J];标准科学;2014年02期
4 唐静笑;吕学强;柳成洋;李涵;;搜索日志中领域查询串识别研究[J];计算机工程与设计;2014年05期
5 刘哲;唐立新;;基于特征匹配的螺柱视觉识别方法研究[J];机械工程与自动化;2014年05期
6 张晓娟;陆伟;雷声伟;;基于查询特征分析的新闻意图自动识别[J];图书情报工作;2014年20期
7 苑玮琦;荆澜涛;林森;桑海峰;;基于分类区分度和相关性的手形特征选择方法[J];仪器仪表学报;2013年08期
8 唐静笑;吕学强;柳成洋;李涵;;用户查询意图的层次化识别方法[J];现代图书情报技术;2014年01期
9 王忠民;曹栋;;基于蚁群算法的行为识别特征优选方法[J];西安邮电大学学报;2014年01期
10 王晋;张小龙;赵涓涓;;孤立性肺结节诊断模型的特征选择算法[J];中国科技论文;2014年10期
中国重要会议论文全文数据库 前1条
1 肖进;唐静;刘敦虎;汪寿阳;;基于GMDH和Logistic回归的目标客户选择模型研究[A];第十六届中国管理科学学术年会论文集[C];2014年
本文编号:958682
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/958682.html