中文网页自动分类系统及关键技术研究与实现

发布时间：2023-05-11 05:54

　　随着互联网的快速发展,网页数量也呈爆炸式的增长。有效组织并管理这些海量网页的方法之一就是利用网页自动分类技术对其进行分类。由于目前网页内容纷繁复杂,而且网页文本长度长短不一,将传统的基于机器学习的分类方法应该用到大规模网页分类中时,往往准确率偏低,这使得这些在传统分类中表现出色的方法难以有效解决大规模网页分类问题。因此,如何针对目前互联网类别体系复杂、网页数量巨大的特点研究一种高效的网页自动分类技术是一个亟待解决的问题。本文针对这一类问题的解决做了相关的研究,主要研究了目前分类所用到的常用方法,指出了其存在的不足,并提出了相应的解决方案,最后通过实验证明了这些方法的有效性。完成的主要工作和取得的研究成果如下:1、对目前的网页分类相关理论进行了研究,包括网页的分类过程、网页表示模型、中文分词技术、特征抽取方法及网页分类算法等。2、研究了目前常用的分类算法,针对目前自动获取的网页内容文本短小的问题,提出了一种基于Labeled_LDA模型的特征词空间扩充方法,通过实验证明了其可行性。3、针对新闻类别等网页内容杂乱,分类准确率较低的现象,提出了一种基于URL结构及标题的预...

【文章页数】：71 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2
        1.2.1 国外的研究现状
        1.2.2 国内的研究现状
    1.3 主要研究内容
    1.4 论文组织结构
第二章网页分类相关理论研究
    2.1 网页分类问题描述
        2.1.1 网页分类的定义
        2.1.2 网页分类一般过程
    2.2 中文分词技术
        2.2.1 基于子串的分词
        2.2.2 基于统计的分词
    2.3 特征抽取方法
        2.3.1 常用特征选取方法
        2.3.2 目前特征选取方法存在的问题
        2.3.3 特征选择方法的改进
    2.4 特征权重计算
        2.4.1 TF-IDF
        2.4.2 TF-IDF的不足
    2.5 网页表示模型
    2.6 常用分类算法介绍
        2.6.1 K最邻近结点方法
        2.6.2 朴素贝叶斯方法
        2.6.3 支持向量机方法
    2.7 本章小结
第三章系统关键算法设计与验证
    3.1 短文本分类算法
        3.1.1 短文本分类算法背景介绍
        3.1.2 短文本分类算法实现与验证
    3.2 预分类算法
        3.2.1 预分类的理论依据
        3.2.2 网页标题关键词映射表的生成
        3.2.3 URL关键词映射表生成
        3.2.4 预分类算法描述
    3.3 多分类归纳模型
        3.3.1 多分类归纳模型
        3.3.2 多分类融合算法
        3.3.3 多分类归纳模型实验分析
    3.4 本章小结
第四章网页自动分类系统设计与实现
    4.1 网页自动分类系统设计
        4.1.1 分类体系
        4.1.2 分类系统架构
        4.1.3 系统功能模块设计
    4.2 网页自动分类系统实现
        4.2.1 网页获取模块实现
        4.2.2 网页解析模块实现
        4.2.3 网页分类模块架构设计及实现
        4.2.4 网页存储模块实现
    4.3 本章小结
第五章系统性能测试
    5.1 实验的环境
    5.2 实验结果评价方法
        5.2.1 召回率和准确率
        5.2.2 F估计值
        5.2.3 微平均和宏平均
    5.3 实验数据
    5.4 实验及结果分析
        5.4.1 特征项规模选择实验
        5.4.2 特征选择算法实验
        5.4.3 分类算法对比实验
        5.4.4 系统性能分析实验
    5.5 本章小结
第六章总结与展望
    6.1 工作总结
    6.2 主要创新点
    6.3 下一步工作
致谢
参考文献
作者在学期间取得的学术成果

本文编号：3814297

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3814297.html

上一篇：基于改进时间卷积网络的日志序列异常检测
下一篇：Neutron架构下服务功能链的研究及实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|