当前位置:主页 > 管理论文 > 移动网络论文 >

大规模网页信息抽取技术研究

发布时间:2022-01-22 04:52
  当今互联网已成为一个巨大的开放式知识库,包含了海量的信息。人们越来越依赖于从互联网上获取信息,但是这些信息格式复杂多样,同时包含了大量的垃圾信息,所以研究如何自动准确的抽取互联网信息成为重要的研究课题。本文的研究重点是互联网信息抽取的相关关键技术,主要包括大规模网页的采集与整理、网页正文信息抽取和文本信息抽取三方面内容。在网页采集与整理方面,主要任务是建立大规模的网页库,作为信息抽取的数据源。使用网络爬虫实现对网页的大规模采集,通过链接分析判断网页重要性,对采集的网页进行筛选。本文对比分析了HITS算法和PageRank算法的性能,进而确定了PageRank作为链接分析算法。由于要处理的网页规模较大,单机处理能力不足,所以选择并实现了基于Hadoop平台的PageRank算法。在网页信息抽取方面,本文通过分析现有网页信息抽取方法存在的不足及其原因,提出基于多特征融合的网页正文信息抽取方法。与以往选用少量特征的方法相比,本文的方法通过选用多种特征确定正文信息,能更好适应风格多样的网页。通过实验的对比,该方法具有较高正确率,能够满足网页正文信息抽取的实际应用需要。在文本信息抽取方面,研究了... 

【文章来源】:西南交通大学四川省 211工程院校 教育部直属院校

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
目录
第一章 绪论
    1.1 研究背景及意义
    1.2 网页信息抽取研究现状及方法
        1.2.1 信息抽取技术研究状况
        1.2.2 网页信息抽取常用方法
    1.3 自然语言文本信息抽取
        1.3.1 国内外文本信息抽取研究现状
        1.3.2 文本信息抽取关键任务
    1.4 信息抽取发展趋势
    1.5 课题任务
    1.6 论文结构
    1.7 本章小结
第二章 大规模网页数据的采集和处理
    2.1 系统流程介绍
    2.2 URL收集和整理选用的方法
    2.3 链接分析算法
        2.3.1 HITS算法与PageRank算法的比较分析
        2.3.2 PageRank算法
    2.4 网页和超链的收集整理
    2.5 Hadoop下的PageRank计算
        2.5.1 Hadoop技术介绍
        2.5.2 Hadoop主要成员
        2.5.3 Hadoop平台的搭建
        2.5.4 Hadoop平台下运行PageRank
    2.6 本章小结
第三章 网页正文信息抽取技术研究
    3.1 网页信息抽取模块流程
    3.2 DOM树相关知识介绍
    3.3 网页模板抽取信息
        3.3.1 网页模板化信息提取算法
        3.3.2 网页模板化信息提取方法步骤
        3.3.3 网页模板化信息提取方法实验结果
    3.4 WIEHF方法抽取信息
        3.4.1 WIEHF方法计算
        3.4.2 WIEHF方法步骤
        3.4.3 WIEHF实验验证和结果分析
    3.5 模板方法和WIEHF方法的实验结果对比
    3.6 本章小结
第四章 文本信息抽取技术研究
    4.1 分词介绍
    4.2 中文信息抽取模块简介
    4.3 代词消解
        4.3.1 代词消解方法引出
        4.3.2 指代消解方法介绍
        4.3.3 消解规则
        4.3.4 基于统计的消解指代方法
    4.4 句法分析和句子成分介绍
        4.4.1 现代汉语句子成分
        4.4.2 现代汉语句子结构和知网介绍
    4.5 基于词性合并的浅层句法分析方法
        4.5.1 方法的引出
        4.5.2 词性合并规则介绍
        4.5.3 句子句式处理介绍
        4.5.4 基于词性合并的浅层句法分析整体介绍
        4.5.5 句法分析方法
        4.5.6 句法分析实验结果
    4.6 各阶段效果图
    4.7 本章小结
第五章 结论与展望
致谢
参考文献
攻读硕士学位期间发表的论文和科研情况
    发表论文
    项目
附录


【参考文献】:
期刊论文
[1]基于规则的中文零指代项识别研究[J]. 秦凯伟,孔芳,李培峰,朱巧明.  计算机科学. 2012(10)
[2]中文人称代词指代消解的研究[J]. 董国志,朱玉全,程显毅.  计算机应用研究. 2011(05)
[3]融合浅层句法分析的蛋白质互作用信息抽取方法[J]. 钱伟中,王娟,傅翀,秦志光.  计算机应用研究. 2011(03)
[4]低频词的中文词性标注研究[J]. 仲其智,姚建民.  计算机应用与软件. 2011(03)
[5]Web信息抽取技术综述[J]. 陈钊,张冬梅.  计算机应用研究. 2010(12)
[6]中文分词和词性标注模型[J]. 刘遥峰,王志良,王传经.  计算机工程. 2010(04)
[7]基于统计与正文特征的中文网页正文抽取研究[J]. 周佳颖,朱珍民,高晓芳.  中文信息学报. 2009(05)
[8]网页文本信息自动提取技术综述[J]. 张俊英,胡侠,卜佳俊.  计算机应用研究. 2009(08)
[9]基于模板的Web信息自动提取方法[J]. 郑长松,傅彦,佘莉.  计算机应用研究. 2009(02)
[10]基于多层条件随机场的中文命名实体识别[J]. 胡文博,都云程,吕学强,施水才.  计算机工程与应用. 2009(01)



本文编号:3601581

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3601581.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b00bf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com