基于半监督的网页分类

发布时间：2021-07-10 01:45

　　网络文本信息飞速增长，对海量网络文本进行自动分类并从中找出我们所需要的信息是一项非常迫切的需求，然而，传统的全监督学习分类器要想有好的分类效果，首先需要人工标注数据，训练好模型之后，才可以分类。在海量数据面前，标注成本极高，用户标注不一致，而数据采集和存储技术却一直在飞速发展，这给本文的设想提供了技术基础。真实网络文本中通常存在大量未标记的数据，仅有少量现成的已标记数据，如果我们假设大量未标记数据与少量已标记数据是服从相同分布的，二者结合之后构建一个质量与数量都满足需求的训练数据集，那么最终训练出的分类器的分类效果将会和大量标记数据训练好的全监督分类器相当。本文尝试了主流的基于半监督学习的分类器，分类数据直接使用了最真实的网络数据，除了正文提取，简单的语言筛选，广告、垃圾文本过滤，最大限度地保留了原始的网络内容。为了提高分类效果，在尝试了几种主要的特征选择和特征抽取方法的基础上，还引入了半监督的宏特征。在分类器的选择方面，本文尝试了三类基于不同原理的分类器：传统的EM，基于直推学习的TSVM和基于深度架构的DBN。在特征方面，本文在传统特征方法上做了实验，为了提高TSVM的精度，本文首...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：63 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第1章绪论
    1.1 课题背景
    1.2 课题目的及意义
    1.3 国内外相关技术发展现状
        1.3.1 文本分类技术的发展
        1.3.2 半监督学习的发展
        1.3.3 半监督文本分类的不足
    1.4 本文的主要研究内容和组织结构
第2章半监督文本分类关键技术
    2.1 半监督学习的 PAC 模型
    2.2 文本标引和特征降维
        2.2.1 文本的特征选择方法
        2.2.2 文本的特征抽取方法
    2.3 评估
    2.4 本章小结
第3章半监督分类器与特征选择
    3.1 基于 EM 的半监督分类器算法实现
    3.2 基于 TSV M 的半监督分类器实现
    3.3 基于 D B N 的半监督分类器实现
    3.4 基于宏特征的文本特征抽取
    3.5 正文提取
    3.6 语言过滤
    3.7 网页筛选
    3.8 本章小结
第4章系统的设计与实现
    4.1 半监督文本分类实验平台
    4.2 网页处理系统
    4.3 半监督分类器与特征模块
    4.4 本章小结
第5章实验评测与结果分析
    5.1 实验目的
    5.2 评测方法
    5.3 半监督分类器在向量数据集上的横向比较
        5.3.1 实验数据集
        5.3.2 实验结果及分析
    5.4 特征选择方法对半监督文本分类的影响
        5.4.1 实验数据集
        5.4.2 EM实验结果
        5.4.3 EM实验分析
        5.4.4 TSVM实验结果
        5.4.5 TSVM 实验分析
        5.4.6 DBN 实验结果
        5.4.7 DBN 实验分析
        5.4.8 宏特征对半监督分类性能的影响
        5.4.9 半监督算法在小数据集上的分类特点
    5.5 半监督文本分类应用到大规模网页分类的效果
        5.5.1 实验数据集
        5.5.2 实验内容
        5.5.3 实验结果及分析
        5.5.4 半监督分类在大规模网页数据集上的缺陷
    5.6 本章小结
结论
参考文献
致谢

本文编号：3274930

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3274930.html

上一篇：边缘覆盖网络存储负载均衡分配法研究与设计
下一篇：恶意URL近实时检测分析系统的设计和实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|