当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于WSFT模型的深层网文本获取方法

发布时间:2017-04-03 12:03

  本文关键词:基于WSFT模型的深层网文本获取方法,,由笔耕文化传播整理发布。


【摘要】:随着Web2.0的兴起,目前互联网应用延伸出了两种存在方式:表层网和深层网。前者是指传统搜索引擎可以检索到的Web页面,是由超链接连通的静态页面组成的;后者是指存在互联网中但无法通过超链接到达的一些资源的集合。目前,深层网里包含的可访问信息容量远远高于一般表层网,可见研究深层网的内容获取方法对提高搜索引擎的覆盖率有着非常重要的的意义。在深层网应用所使用的技术中,Ajax技术由于为Web应用提供了更流畅的交互而成为了其中的重要组成部分。使用了Ajax技术的页面与一般表层网页面的区别在于其是多种状态的“混合体”,即一个页面对应多个文档结构,且文档结构之间存在强关联关系。Ajax页面的多状态以及状态之间强关联的特性可能会有助于Web页面数据处理(如重要内容挖掘),而当前研究还没有针对Ajax页面的这种特性来进行数据预处理的方法。考虑到文本作为信息的主要载体,且大部分Web挖掘方法是针对文本来进行分析的,页面文档的内容信息与结构信息对Web挖掘工作都是非常重要的。由此提出一种基于WSFT(带权状态融合树)模型的深层网文本获取方法:在一个Ajax页面多个状态的转换中,一个文本块出现频率越高,可能越重要。本文主要针对Ajax页面的文本信息进行分析处理,且很好的保留Web页面的内容信息和结构信息。首先,构建一个特定的数据结构一文本特征树。这个数据结构即能有效地保留原Web页面的文档内容信息和结构特征,同时也能作为状态转换的信息指纹,有效地判断状态改变。从而优化了深层网中Ajax页面信息采集方法。然后,将文本特征树引入到Ajax页面的采集过程。具体实现中,通过事件代理技术,主动触发一个Web页面的各种状态,并将每一个页面树转换为一个文本特征树,从而获取到一个页面的文本特征树集合以及相互转换条件来构造出状态转移有向图,进而计算出这个有向图的邻接矩阵。最后,使用StatusRank算法对每个状态进行权值计算,并将所有状态融合成一个WSFT(带权状态融合树),为后续的Web挖掘(内容挖掘和结构挖掘)工作提供了有价值的结构化数据。从互联网应用中,选用了一些广泛使用了Ajax技术的站点进行实验。在这个过程中设计并实现了相应的原型系统cl-fetcher,并对实验结果进行分析,论证了本文所提出的方法的有效性。
【关键词】:Ajax爬虫 带权状态融合树 文本挖掘 文本特征树
【学位授予单位】:湖南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-12
  • 第1章 绪论12-18
  • 1.1 研究背景及意义12-13
  • 1.2 相关技术研究现状13-15
  • 1.3 主要研究内容15-17
  • 1.4 论文组织结构17-18
  • 第2章 相关技术综述18-32
  • 2.1 客户端相关技术18-23
  • 2.1.1 JavaScript脚本语言18-19
  • 2.1.2 文档对象模型(DOM)19-21
  • 2.1.3 事件模型21-23
  • 2.2 深层网和Ajax技术23-26
  • 2.2.1 深层网概念和特点23-24
  • 2.2.2 Ajax技术和XMLHttpRequest对象24-26
  • 2.3 Web挖掘与网络爬虫技术26-30
  • 2.3.1 Web挖掘概念和分类26-29
  • 2.3.2 Web挖掘过程29
  • 2.3.3 网络爬虫技术29-30
  • 2.4 PageRank算法30-31
  • 2.5 本章小结31-32
  • 第3章 基于WSFT模型的文本获取方法32-43
  • 3.1 基础定义32-33
  • 3.2 文本特征树33-35
  • 3.3 状态捕获35-38
  • 3.4 状态融合树生成38-41
  • 3.5 本章小结41-43
  • 第4章 原型系统设计及实验结果分析43-58
  • 4.1 原型系统设计43-53
  • 4.1.1 项目构建43-45
  • 4.1.2 系统设计45-47
  • 4.1.3 Ajax页面采集器模块47-50
  • 4.1.4 Ajax页面分析器模块50-52
  • 4.1.5 状态融合器模块52-53
  • 4.2 实验结果分析53-57
  • 4.2.1 方法代理结果验证53
  • 4.2.2 状态捕获结果验证53-55
  • 4.2.3 WSFT模型正确性验证55-56
  • 4.2.4 其他指标对比56-57
  • 4.3 本章小结57-58
  • 结论58-60
  • 参考文献60-64
  • 致谢64-65
  • 附录A 攻读学位期间所发表的学术论文目录65-66
  • 附录B 攻读学位期间所参与的实践项目66

【相似文献】

中国硕士学位论文全文数据库 前1条

1 李虹萱;基于WSFT模型的深层网文本获取方法[D];湖南大学;2016年


  本文关键词:基于WSFT模型的深层网文本获取方法,由笔耕文化传播整理发布。



本文编号:284267

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/284267.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5118e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com