当前位置:主页 > 管理论文 > 移动网络论文 >

网页核心语义数据提取算法研究

发布时间:2021-03-22 10:23
  在网络信息爆炸式增长的背景下,网页语义的描述及其提取方法的研究正受到越来越广泛的关注。网页语义的研究在语义网络构建、网络挖掘和其它商业应用中具有重要的理论意义和应用价值。而现有的语义提取方法或者需要耗费大量的人力、或者只限用于某个特定领域,都难以适应当今普遍且频繁的应用需求。在本文中,我们提出一种通过识别和划分网页逻辑结构来获取网页语义的提取方法。运用网络挖掘和网页内容抽取技术,只需要将少量的标注页面作为训练数据,并仅使用从单个页面中提取的网页结构特征,就能够自动化地将网页内容从由标签和文本组成的字符流转化为一组逻辑上相对独立的功能区域。通过各个区域在网页中的位置分布等信息,识别出每一个区域在网页中承担的具体功能。我们的方法将重复结构这一种重要的网页结构作为分析问题的切入点,首先,使用机器学习的方法,将决策树和SVM组合构成的分类器用于网页中重复结构的识别和定位;然后,识别出有意义的重复结构并以之为分割点将网页内容分为若干语义区域;最后,标定网页中每个语义区域的语义功能,并抽取出各个区域中有价值的数据内容。我们将网页逻辑结构划分的结果和语义区域的功能标定的结果作为本文研究的两类主要语义... 

【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:53 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
    1.2 网页语义描述和提取
    1.3 本文工作和主要贡献
    1.4 本文结构
第二章 相关技术和研究现状
    2.1 网络挖掘技术
        2.1.1 网页抽取
        2.1.2 网页分类
    2.2 网页语义研究
        2.2.1 语义网络和网络挖掘
        2.2.2 网页语义挖掘技术
第三章 方法设计
    3.1 概念定义
        3.1.1 重复结构和重复单元
        3.1.2 网页生成模型
    3.2 重复结构定位方法
        3.2.1 分组算法
        3.2.2 合并规则
        3.2.3 特征选择
    3.3 结构化和表格提取
        3.3.1 序列化算法
        3.3.2 MSA算法在重复结构结构化中的应用
        3.3.3 结构化效果分析
    3.4 语义标定与网页逻辑结构划分
        3.4.1 重复结构语义标定
        3.4.2 非重复结构区域提取算法
        3.4.3 非重复结构区域语义标定
        3.4.4 特征选择
    3.5 本章小结
第四章 实验分析
    4.1 实验环境
    4.2 数据集准备
    4.3 数据预处理
    4.4 分类型设计
        4.4.1 失衡样本上的分类器设计
        4.4.2 过滤效果的评价
        4.4.3 性能评价标准
    4.5 实验过程和分析
第五章 总结和展望
    5.1 总结
    5.2 展望
附录
参考文献
后记



本文编号:3094002

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3094002.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dc94b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com