舆情系统中web信息抽取子系统的设计与实现

发布时间：2021-08-22 08:46

　　网络舆情反映了广大民众对各种事件的态度，是国家相关部门了解民意的重要渠道。Web信息抽取是舆情系统进行舆情信息分析的输入，它性能的好坏直接影响了舆情信息的来源及判断。随着互联网的快速发展，网页形式越来越多，为了快速准确地获取舆情信息，舆情系统对Web信息抽取提出了越来越高的要求。本文正是针对上述问题提出解决方案，以Web信息抽取技术为研究对象，针对当前各种网页形式进行深入分析，并且结合舆情信息处理要求，针对新闻、博客、论坛及微博四种不同类型的舆情信息来源网页，提出不同的抽取方法。主要研究内容有：1.研究新闻博客类网页信息抽取技术，采用通用网页正文提取技术，对新闻博客类网页正文进行抽取，并利用正则表达式提取其他数据项，该方法不依赖于网页结构，抽取速度快，准确度高，通用性好。2.研究网页聚类方法，提出一种基于网页结构的聚类方法。该方法结合论坛类网页标签特性，由于每个标签节点因层次不同对网页结构相似性影响不同，对每个节点赋予权值，采用加权余弦相似性公式计算两棵网页标签树的相似性。该方法有很好的聚类效果，时间复杂度为O（n）。3.研究基于网页结构相似性比较的Web信息自动抽取技术，提出一种论坛...

【文章来源】：电子科技大学四川省 211工程院校 985工程院校教育部直属院校

【文章页数】：103 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 选题背景与研究意义
    1.2 国内外研究现状
    1.3 本文研究内容与组织结构
第二章相关技术基础
    2.1 网络爬虫
    2.2 HTML 标签树
    2.3 XML 简介
    2.4 通用网页正文提取技术
    2.5 网页聚类
        2.5.1 相似性计算
            2.5.1.1 加权余弦相似性
            2.5.1.2 树编辑距离
        2.5.2 网页聚类技术
    2.6 信息熵
    2.7 正则表达式
    2.8 本章小结
第三章系统中关键技术的实现
    3.1 网页聚类方法
    3.2 自动生成模板
        3.2.1 模板表示
        3.2.2 模板生成流程
            3.2.2.1 自动下载网页
            3.2.2.2 生成 HTML 标签树
            3.2.2.3 数据区域确定
            3.2.2.4 数据项路径确定
            3.2.2.5 存储匹配模板
    3.3 本章小结
第四章舆情系统中 Web 信息抽取子系统总体设计
    4.1 舆情系统简介
        4.1.1 总体处理流程
        4.1.2 总体结构
        4.1.3 开发环境
    4.2 Web 信息抽取子系统总体设计
        4.2.1 Web 信息抽取总体结构设计
        4.2.2 Web 信息抽取流程
        4.2.3 数据库设计
    4.3 本章小结
第五章 Web 信息抽取子系统功能模块设计与实现
    5.1 URL 分类
        5.1.1 URL 获取
        5.1.2 URL 分类
    5.2 新闻博客类抽取
        5.2.1 通用行块分布函数实现
        5.2.2 其他数据项抽取
            5.2.2.1 发布时间
            5.2.2.2 标题
    5.3 论坛类抽取
        5.3.1 论坛抽取整体流程
        5.3.2 模板优化
    5.4 微博类抽取
        5.4.1 微博抽取整体流程
        5.4.2 微博模拟自动登录
        5.4.3 微博数据项抽取
    5.5 数据库实现
    5.6 本章小结
第六章测试与分析
    6.1 网页聚类测试
    6.2 Web 信息抽取实验结果
    6.3 Web 信息抽取评价标准
    6.4 本章小结
第七章总结与展望
    7.1 总结
    7.2 展望
致谢
参考文献
攻硕期间取得的研究成果

【参考文献】：
期刊论文
[1]新浪微博数据挖掘方案[J]. 廉捷,周欣,曹伟,刘云.  清华大学学报(自然科学版). 2011(10)
[2]基于网页聚类的Web信息自动抽取[J]. 邱韬奋,杨天奇,曾洪波.  微型机与应用. 2011(04)
[3]网页信息自动抽取技术的研究[J]. 胡少荣,孟嗣仪,刘云,张彦超,丁飞.  铁路计算机应用. 2010(09)
[4]基于自动生成模板的Web信息抽取技术[J]. 张彦超,刘云,李勇,沈波.  北京交通大学学报. 2009(05)
[5]基于统计与正文特征的中文网页正文抽取研究[J]. 周佳颖,朱珍民,高晓芳.  中文信息学报. 2009(05)
[6]一种基于模板的快速网页文本自动抽取算法[J]. 陈治昂,周知予,李大学.  计算机应用研究. 2009(07)
[7]基于网页格式信息量的博客文章和评论抽取模型[J]. 曹冬林,廖祥文,许洪波,白硕.  软件学报. 2009(05)
[8]基于模板的Web信息自动提取方法[J]. 郑长松,傅彦,佘莉.  计算机应用研究. 2009(02)
[9]有效HTML文本信息抽取方法的研究[J]. 韩忠明,李文正,莫倩.  计算机应用研究. 2008(12)
[10]基于XML的自动学习Web信息抽取[J]. 冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏.  计算机科学. 2008(03)

硕士论文
[1]基于聚类算法的Web信息抽取技术研究[D]. 邱韬奋.暨南大学 2011
[2]Web信息自动抽取技术研究[D]. 赖春波.浙江大学 2008
[3]基于XML的Web信息抽取研究[D]. 卢睿.大连海事大学 2005
[4]半结构化Web信息抽取技术及其应用研究[D]. 董树明.东南大学 2004

本文编号：3357419

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3357419.html

上一篇：网络安全技术在气象信息系统中的应用研究
下一篇：云计算背景下的数据安全问题及防范策略探析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|