网络信息采集及数据分析结果可视化的研究与实现
发布时间:2021-10-13 19:35
在当今“信息爆炸”的时代,如何快速有效地为数据处理采集大量外部网页信息资源,并将数据分析结果以可视化的方式呈现,从而提高使用者的决策和指挥效率,是目前网络信息研究的热点问题。这涉及到信息采集、信息抽取、相似度计算、数据可视化等多个领域的研究内容。本文根据跨域数据语义共享平台项目的要求,研究了网络信息采集和数据分析结果可视化的研究和实现。论文在阐述了信息采集和可视化的基本概念、原理和方法的基础上,分别详细介绍了信息采集和可视化的相关技术;在网络信息采集中,采取了深度和广度相结合的策略模式,应用了DOM树、HTML解析器和模板技术实现网页信息的采集和抽取,并通过改进了句子的语义相似度计算算法,对已抽取的信息进行过滤;在可视化展现中,独立开发了Spruce组件,实现了本体关系的可视化展现,利用Carrot2可视化组件和ZedGraph类库,实现了聚类结果和语义搜索结果的可视化展现。最后,通过实验验证了信息采集的可行性、信息过滤算法的高效性以及可视化展现的直观性,并对整个项目系统的I/O部分进行了功能测试,实验证明系统达到了设计要求。
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 信息采集
1.2.2 信息抽取
1.2.3 可视化
1.3 论文工作内容
1.4 论文的组织结构
第二章 相关理论与技术
2.1 网页介绍
2.1.1 网页类型
2.1.2 网页噪音
2.2 信息采集
2.2.1 爬虫技术
2.2.2 信息抽取
2.3 词语语义相似度计算
2.3.1 知网结构
2.3.2 知网词语相似度计算
2.3.3 改进的知网词汇语义相似度计算
2.4 可视化技术
2.4.1 信息可视化
2.4.2 数据可视化
2.4.3 可视化模型
2.5 本章小结
第三章 网络信息采集及抽取技术研究
3.1 网络信息采集
3.1.1 需求分析
3.1.2 策略选择
3.1.3 模块分析
3.1.4 测试分析
3.2 网络信息抽取
3.2.1 抽取与过滤问题分析
3.2.2 信息抽取技术
3.2.3 语义相似度计算
3.2.4 测试分析
3.3 本章小结
第四章 数据分析结果可视化技术研究
4.1 应用问题分析
4.2 本体可视化模块的设计
4.2.1 本体介绍
4.2.2 架构设计
4.2.3 详细设计
4.2.4 测试分析
4.3 聚类可视化模块的设计
4.3.1 聚类介绍
4.3.2 需求分析
4.3.3 算法设计
4.3.4 概要设计
4.3.5 测试分析
4.4 语义搜索结果可视化模块设计
4.4.1 需求分析
4.4.2 插件介绍
4.4.3 设计步骤
4.5 本章小结
第五章 平台 I/O 系统的设计与实现
5.1 应用需求分析
5.2 系统详细设计与实现
5.2.1 总体结构
5.2.2 信息采集模块的设计
5.2.3 信息抽取模块的设计
5.2.4 语义相似度计算模块的设计
5.2.5 信息过滤模块的设计与实现
5.2.6 本体可视化模块的设计
5.2.7 聚类可视化模块的设计
5.2.8 语义搜索结果可视化的设计
5.3 本章小结
第六章 测试及结果分析
6.1 实验设计与环境
6.1.1 实验设计
6.1.2 实验环境
6.2 测试过程与结果
6.2.1 网络信息采集测试
6.2.2 网络信息抽取测试
6.2.3 本体关系可视化测试
6.2.4 聚类结果可视化测试
6.2.5 语义搜索结果可视化测试
6.3 结果分析与结论
6.4 本章小结
第七章 结论与展望
致谢
参考文献
在研期间研究成果
【参考文献】:
期刊论文
[1]专题新闻文本集信息可视化研究[J]. 安海忠,崔娜. 图书情报工作. 2009(12)
[2]国外Web信息抽取研究综述[J]. 龙丽,庞弘燊. 图书馆学刊. 2008(05)
[3]一种改进的基于《知网》的词语语义相似度计算[J]. 江敏,肖诗斌,王弘蔚,施水才. 中文信息学报. 2008(05)
[4]信息可视化的发展趋势研究[J]. 周宁,程红莉,吴佳鑫. 图书情报工作. 2008(08)
[5]信息可视化应用研究进展[J]. 李纲,郑重. 图书情报知识. 2008(04)
[6]大型层次信息可视化方法研究[J]. 景民昌,孙洁丽. 情报科学. 2008(04)
[7]信息可视化技术在军事中的应用[J]. 王鸿玲,糜玉林. 舰船电子工程. 2008(03)
[8]基于Web的信息抽取技术研究综述[J]. 蒲筱哥. 现代情报. 2007(10)
[9]基于Venn图的层次信息可视化[J]. 王威信,明春英,王宏安,戴国忠. 计算机学报. 2007(09)
[10]复杂网络可视化研究综述[J]. 王柏,吴巍,徐超群,吴斌. 计算机科学. 2007(04)
本文编号:3435286
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 信息采集
1.2.2 信息抽取
1.2.3 可视化
1.3 论文工作内容
1.4 论文的组织结构
第二章 相关理论与技术
2.1 网页介绍
2.1.1 网页类型
2.1.2 网页噪音
2.2 信息采集
2.2.1 爬虫技术
2.2.2 信息抽取
2.3 词语语义相似度计算
2.3.1 知网结构
2.3.2 知网词语相似度计算
2.3.3 改进的知网词汇语义相似度计算
2.4 可视化技术
2.4.1 信息可视化
2.4.2 数据可视化
2.4.3 可视化模型
2.5 本章小结
第三章 网络信息采集及抽取技术研究
3.1 网络信息采集
3.1.1 需求分析
3.1.2 策略选择
3.1.3 模块分析
3.1.4 测试分析
3.2 网络信息抽取
3.2.1 抽取与过滤问题分析
3.2.2 信息抽取技术
3.2.3 语义相似度计算
3.2.4 测试分析
3.3 本章小结
第四章 数据分析结果可视化技术研究
4.1 应用问题分析
4.2 本体可视化模块的设计
4.2.1 本体介绍
4.2.2 架构设计
4.2.3 详细设计
4.2.4 测试分析
4.3 聚类可视化模块的设计
4.3.1 聚类介绍
4.3.2 需求分析
4.3.3 算法设计
4.3.4 概要设计
4.3.5 测试分析
4.4 语义搜索结果可视化模块设计
4.4.1 需求分析
4.4.2 插件介绍
4.4.3 设计步骤
4.5 本章小结
第五章 平台 I/O 系统的设计与实现
5.1 应用需求分析
5.2 系统详细设计与实现
5.2.1 总体结构
5.2.2 信息采集模块的设计
5.2.3 信息抽取模块的设计
5.2.4 语义相似度计算模块的设计
5.2.5 信息过滤模块的设计与实现
5.2.6 本体可视化模块的设计
5.2.7 聚类可视化模块的设计
5.2.8 语义搜索结果可视化的设计
5.3 本章小结
第六章 测试及结果分析
6.1 实验设计与环境
6.1.1 实验设计
6.1.2 实验环境
6.2 测试过程与结果
6.2.1 网络信息采集测试
6.2.2 网络信息抽取测试
6.2.3 本体关系可视化测试
6.2.4 聚类结果可视化测试
6.2.5 语义搜索结果可视化测试
6.3 结果分析与结论
6.4 本章小结
第七章 结论与展望
致谢
参考文献
在研期间研究成果
【参考文献】:
期刊论文
[1]专题新闻文本集信息可视化研究[J]. 安海忠,崔娜. 图书情报工作. 2009(12)
[2]国外Web信息抽取研究综述[J]. 龙丽,庞弘燊. 图书馆学刊. 2008(05)
[3]一种改进的基于《知网》的词语语义相似度计算[J]. 江敏,肖诗斌,王弘蔚,施水才. 中文信息学报. 2008(05)
[4]信息可视化的发展趋势研究[J]. 周宁,程红莉,吴佳鑫. 图书情报工作. 2008(08)
[5]信息可视化应用研究进展[J]. 李纲,郑重. 图书情报知识. 2008(04)
[6]大型层次信息可视化方法研究[J]. 景民昌,孙洁丽. 情报科学. 2008(04)
[7]信息可视化技术在军事中的应用[J]. 王鸿玲,糜玉林. 舰船电子工程. 2008(03)
[8]基于Web的信息抽取技术研究综述[J]. 蒲筱哥. 现代情报. 2007(10)
[9]基于Venn图的层次信息可视化[J]. 王威信,明春英,王宏安,戴国忠. 计算机学报. 2007(09)
[10]复杂网络可视化研究综述[J]. 王柏,吴巍,徐超群,吴斌. 计算机科学. 2007(04)
本文编号:3435286
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3435286.html