当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于链接关系的网页分类算法优化

发布时间:2017-10-02 09:01

  本文关键词:基于链接关系的网页分类算法优化


  更多相关文章: 网页分类 链接关系 支持向量机 相似度


【摘要】:网络技术的发展和推广,使我们进入了一个信息极其丰富的时代。在这种时代背景下,搜索引擎以其高效和便捷的特性获得了人们的青睐,成为主流的信息获取方式。但是搜索引擎的结果中总是包含很多主题无关的网页,这严重影响了搜索质量,是一个亟待解决的问题。网页分类不仅能够有效的解决这一问题,而且可以使信息资源的组织更合理,对问答系统、信息过滤等都有积极的意义。网页分类已经成为一个重要的研究课题。所以本文对基于链接关系的网页分类算法进行研究,实现一个改进后的网页分类系统。 本文的主要研究工作如下: (1)提出利用网页间的相似度对基于链接关系的网页分类算法进行优化。为了解决该算法中存在的噪声邻域网页干扰问题,在分类时为不同链接关系的邻域网页分别设置相似度阈值,,只有满足条件时才能参与计算,减少了噪声邻域网页的干扰。 (2)使用支持向量机来改善分类效果。网页中的文本内容包含了丰富的信息,利用得当可以继续提高分类的准确性。支持向量机是一种十分有效的分类算法,通过对支持向量机对文本内容分类的结果进行权重计算改进原算法。 (3)根据提出的优化方法,设计并实现了一个网页分类系统。在概要设计部分,从宏观上说明了实现系统的原理、目标、开发环境和总体结构。在详细设计与实现部分,按照分模块的方式进行,论述了各个模块的功能、包含的子模块以及具体处理的过程和实现细节。 (4)为了验证提出优化方法的有效性,实现了两个参照分类器,其分别以支持向量机和原链接关系分类算法为原理。依次对实验数据进行分类,计算三种情况下的查准率、召回率和F1值并进行对比分析。 实验结果表明,优化后的算法效果良好,比改进前性能有所提高。
【关键词】:网页分类 链接关系 支持向量机 相似度
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 绪论8-16
  • 1.1 研究背景与意义8-9
  • 1.2 网页分类概述与研究现状9-13
  • 1.2.1 网页分类概述9-12
  • 1.2.2 网页分类研究现状12-13
  • 1.3 论文的组织结构13-16
  • 第2章 相关技术介绍16-28
  • 2.1 文本表示16-18
  • 2.1.1 布尔模型16-17
  • 2.1.2 向量空间模型17-18
  • 2.2 权重计算18-20
  • 2.3 特征选择20-22
  • 2.3.1 信息增益20-21
  • 2.3.2 互信息21
  • 2.3.3 χ 2统计量21-22
  • 2.4 网页分类22-27
  • 2.4.1 支持向量机22-26
  • 2.4.2 基于链接关系的网页分类算法26-27
  • 2.5 小结27-28
  • 第3章 网页分类系统概要设计28-36
  • 3.1 系统目标28-29
  • 3.2 系统实现原理29-30
  • 3.3 系统开发环境30
  • 3.4 系统总体结构30-34
  • 3.5 本章小结34-36
  • 第4章 系统详细设计与实现36-44
  • 4.1 系统预处理模块36-38
  • 4.2 网页预处理模块38-40
  • 4.3 分类模块40-41
  • 4.4 效果评价模块41-42
  • 4.5 网页分类流程说明42-43
  • 4.6 本章小结43-44
  • 第5章 实验结果及性能分析44-50
  • 5.1 实验数据集44-45
  • 5.2 性能评价指标45-46
  • 5.3 参数选择46-47
  • 5.4 实验结果47-48
  • 5.5 本章小结48-50
  • 结论50-52
  • 参考文献52-56
  • 攻读硕士学位期间所发表的学术论文56-58
  • 致谢58

【共引文献】

中国期刊全文数据库 前10条

1 蒋辉;张波;;支持向量回归特征提取的ARMA准则——中国社会消费品零售总额预测的实证研究[J];统计与信息论坛;2012年07期

2 范雪莉;冯海泓;原猛;;基于互信息的主成分分析用于声场景分类[J];声学技术;2013年03期

3 计雄飞;张宝林;王霞;魏利伟;;专题服务方式探讨——以标准文献服务为例[J];标准科学;2014年02期

4 唐静笑;吕学强;柳成洋;李涵;;搜索日志中领域查询串识别研究[J];计算机工程与设计;2014年05期

5 刘哲;唐立新;;基于特征匹配的螺柱视觉识别方法研究[J];机械工程与自动化;2014年05期

6 张晓娟;陆伟;雷声伟;;基于查询特征分析的新闻意图自动识别[J];图书情报工作;2014年20期

7 苑玮琦;荆澜涛;林森;桑海峰;;基于分类区分度和相关性的手形特征选择方法[J];仪器仪表学报;2013年08期

8 唐静笑;吕学强;柳成洋;李涵;;用户查询意图的层次化识别方法[J];现代图书情报技术;2014年01期

9 王忠民;曹栋;;基于蚁群算法的行为识别特征优选方法[J];西安邮电大学学报;2014年01期

10 王晋;张小龙;赵涓涓;;孤立性肺结节诊断模型的特征选择算法[J];中国科技论文;2014年10期

中国重要会议论文全文数据库 前1条

1 肖进;唐静;刘敦虎;汪寿阳;;基于GMDH和Logistic回归的目标客户选择模型研究[A];第十六届中国管理科学学术年会论文集[C];2014年



本文编号:958682

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/958682.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2634***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com