网络文本数据异构集成技术研究
发布时间:2017-09-20 01:17
本文关键词:网络文本数据异构集成技术研究
更多相关文章: 网络爬虫 数据异构 语义分析 XML技术 数据集成
【摘要】:网络爬虫技术在互联网中运用已经是非常成熟,但其检索结果的准确性仍是搜索引擎急需解决的问题,并且因互联网web数据的特殊性和无结构性,使得检索数据不能按照一定的数据结构存储,构成了数据异构集成的难题。本文研究内容是对主题网络爬虫进行改造,使得主题网络爬虫能够按照主题语义进行抓取数据,提高检索结果的准确率,并且对检索结果进行数据异构集成。聚焦主题网络爬虫是在基于主题网络爬虫基础上,利用正则表达式描述主题模型,结合改进的TF-IDF算法,使得TF-IDF算法能够根据主题语义进行判断网页内容,提高主题网络爬虫的搜索数据的准确性。基于语义分析的垂直网络爬虫是根据用户输入语义来搜索网络资源信息,同时能智能的过滤掉无关信息,使得检索出来的信息更加准确和全面。实验数据表明,改进的TF-IDF算法使得检索结果的准确率提高了10%。本系统使用的数据集成技术是基于扩展标记语言XML技术对检索结果进行集成。XML中间件数据交换技术已经成为应用间交换数据的一种标准。XML数据源的结构多样性,灵活性和适应性,使得XML交换技术在数据异构集技术研究中具有明显优势。
【关键词】:网络爬虫 数据异构 语义分析 XML技术 数据集成
【学位授予单位】:北方工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 绪论8-11
- 1.1 课题研究背景和意义8-9
- 1.2 国内外研究现状9
- 1.2.1 国内外网络爬虫研究现状9
- 1.2.2 国内外数据异构集成技术研究现状9
- 1.3 研究内容9-11
- 1.3.1 基于语义分析的网络爬虫9-10
- 1.3.2 网络文本数据自动分析技术10
- 1.3.3 数据异构集成技术10-11
- 第二章 相关理论和技术概念11-14
- 2.1 网络爬虫技术11
- 2.2 数据异构集成技术11-12
- 2.3 典型数据集成技术12-14
- 2.3.1 联邦数据库系统12
- 2.3.2 数据仓库系统(DataWarehouse)12-13
- 2.3.3 面向消息的中间件技术13
- 2.3.4 XML技术13-14
- 第三章 方案设计概念14-18
- 3.1 数据采集模块14-15
- 3.1.1 数据抓取模块14-15
- 3.1.2 语义分析模块15
- 3.2 数据处理模块15
- 3.2.1 数据存储15
- 3.2.2 文件索引15
- 3.3 数据集成模块15-18
- 3.3.1 XML生成模块16
- 3.3.2 XML分析模块16-17
- 3.3.3 XML关系映射模块17
- 3.3.4 XML整合模块17-18
- 第四章 TF-IDF改进算法的聚焦网络爬虫研究18-26
- 4.1 聚焦主题网络爬虫18
- 4.2 基于语义分析的聚焦主题网络爬虫18-19
- 4.3 TF-IDF算法改进19-22
- 4.4 基于语义分析的聚焦主题网络爬虫设计22-26
- 4.4.1 语义库22-24
- 4.4.2 数据下载模块24
- 4.4.3 爬行控制模块24-26
- 第五章 数据异构集成技术26-29
- 5.1 网络文档数据结构特征提取26-27
- 5.2 XML文档生成实现27-28
- 5.3 基于XML数据集成28-29
- 第六章 软件实现29-47
- 6.1 数据抓取29-41
- 6.1.1 语义解析器31-35
- 6.1.2 数据分析和抽取35
- 6.1.3 TF-IDF改进算法实现35-41
- 6.2 文件系统和索引系统服务41-45
- 6.2.1 文件系统服务42
- 6.2.2 索引系统服务42-43
- 6.2.3 文件和索引系统服务核心代码43-45
- 6.3 数据异构集成45-47
- 6.3.1 XML文件生成46
- 6.3.2 XML文件分析46
- 6.3.3 XML文件整合46-47
- 第七章 系统测试和结果分析47-49
- 7.1 系统测试47-48
- 7.2 结果分析48-49
- 第八章 结论与展望49-50
- 8.1 总结和展望49-50
- 参考文献50-53
- 在学期间的研究成果53-54
- 致谢54
【相似文献】
中国期刊全文数据库 前2条
1 胡滨;;基于XML的空间数据异构共享与在线发布技术研究[J];现代机械;2010年05期
2 ;[J];;年期
中国硕士学位论文全文数据库 前2条
1 邱铜相;网络文本数据异构集成技术研究[D];北方工业大学;2016年
2 张倩;基于XML与.NET的企业质量数据异构集成系统[D];昆明理工大学;2007年
,本文编号:885042
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/885042.html