当前位置:主页 > 科技论文 > 软件论文 >

Deep Web数据资源智能挖掘系统

发布时间:2023-05-10 20:43
  随着互联网的发展和信息技术的快速进步,网络已成为人们获取信息的重要渠道。而在网络环境中,与浅层网络相比,Deep Web中包含的信息数量更多,质量更高且一般是结构化的。但是,Deep Web中的信息并不能被直接访问。所以,研究如何获取并利用Deep Web中的信息就显得十分必要。为了高效地利用Deep Web中的信息,本文提出了一种基于随机森林的数据源发现方法和基于文本特征扩展与提取的数据源分类方法。文章的主要研究内容和取得的成果可总结如下:(1)提出了一种基于随机森林模型的Deep Web数据源发现方法。首先通过分析网页代码及结构,总结得出了一系列网页表单特征。之后,根据这些特征建立随机森林模型用于将Deep Web数据源与其他网页表单区分开,达到发现Deep Web数据源的目的。最后,在UIUC TEL-8数据集上进行了实验,实验结果表明本文提出的方法可以准确地完成数据源的发现。(2)针对Deep Web数据源中由于文本较少导致的特征稀疏问题,提出了一种基于N-gram模型的特征扩展方法。同时,由于在特征扩展过程中可能引入新的噪声,本文利用Word2Vec进行了噪声消除。实验结果表...

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
    1.3 论文主要工作与章节安排
第2章 基于随机森林的Deep Web数据源发现
    2.1 网页表单的特征提取
    2.2 基于随机森林的数据源发现
        2.2.1 决策树理论
        2.2.2 集成学习
        2.2.3 随机森林模型
    2.3 实验与结果分析
        2.3.1 实验准备
        2.3.2 实验与结果分析
    2.4 本章小结
第3章 Deep Web数据源分类
    3.1 数据源的预处理
    3.2 Word Embedding文本表示
        3.2.1 CBOW模型
        3.2.2 Skip-gram模型
    3.3 基于N-gram模型的语义特征扩展
        3.3.1 文本特征扩展
        3.3.2 N-gram语言模型
        3.3.3 模型训练与平滑方法
        3.3.4 基于N-gram模型的特征扩展
    3.4 特征扩展后的噪声消除
    3.5 基于注意力机制的Bi-LSTM数据源分类模型
        3.5.1 Bi-LSTM模型
        3.5.2 注意力机制的思想
        3.5.3 数据源分类模型
    3.6 实验结果与分析
        3.6.1 评价指标
        3.6.2 Deep Web数据源特征扩展实验
        3.6.3 Deep Web数据源分类实验
    3.7 本章小结
第4章 Deep Web数据资源智能挖掘系统的设计与实现
    4.1 总体设计与开发环境
        4.1.1 系统总体设计
        4.1.2 开发及运行环境
    4.2 系统详细设计
        4.2.1 系统整体架构
        4.2.2 系统功能架构
        4.2.3 系统技术架构
        4.2.4 系统数据库设计
    4.3 系统实现
    4.4 系统测试
    4.5 本章小结
第5章 总结与展望
    5.1 总结
    5.2 展望
参考文献
附录
    附录1 数据源发现模型核心代码
    附录2 数据源分类模型核心代码
攻读硕士学位期间发表的学术论文及其它成果
致谢



本文编号:3813479

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3813479.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69dfa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com