面向电子商务的深层网入口挖掘研究
本文关键词:面向电子商务的深层网入口挖掘研究,,由笔耕文化传播整理发布。
【摘要】:电子商务在近二十年的蓬勃发展取得了世人瞩目的业绩,并以一种前所未有的方式改变着传统的商务活动的模式和格局,更深刻地影响着人们对商务的认识和理解,改变着人们的生活和工作方式。随着网络规模在全球的迅猛发展,Internet上的Web站点及网页数量在以爆炸性的趋势增长同时随着网络技术的不断进步,越来越多的Web数据库需要通过网络查询入口才能进行访问,学术界称其为深层网(Deep Web)。经相关研究机构和商业机构的调查,万维网中深层网的数据存储数量非常巨大,其中电子商务数据占了很大的比重。这些电子商务数据具有很高的商用价值。然而由于这些电子商务网站网页形式与内容开发的独立性,造成了Web数据库,特别是查询入口的异构性。正因为此原因,自动的从电子商务网站中获取有价值的信息和数据变成了一件十分具有挑战性的任务。 本文针对深层网挖掘中目前还没有很好解决的如何让机器从语义上理解深层网中的入口信息问题,充分分析了深层网中电子商务入口中文本标签和查询元素之间的关系以及查询元素之间的关系。除此之外,从深层网入口的位置特征、布局特征和显示特征三个方面分析了深层网入口的视觉特征。通过大量电子商务网站深层网入口的观察的基础上得到了一些置信度很高的启发式规则,从而提出了基于深层网入口的可视化特征和本体工具WordNet分析深层网入口元素的语义关系来更好的挖掘出人们易于理解的深层网入口语义层次结构的方法。该方法首先需要对深层网入口页面数据进行预处理。然后,利用基于可视化特征的页面分割算法构建可视化模块树并利用可视化对树中的文本信息进行聚类及标签信息的识别。最后充分利用深层网入口中的标签信息间的语义关系构建出合理的标签树并通过查询元素与标签之间的视觉特征关系对标签树和查询元素进行匹配,从而提高了挖掘语义信息的准确度,进而提高了深层网信息的获取效率和覆盖率。此外本研究利用UIUC网站提供的研究数据对提出的方法进行了准确度的实验,实验表明,相对于以往的深层网入口挖掘方法,本文提出的方法在准确性方面具有更好的表现。最后对本研究进行了总结,并提出了未来继续研究的方向。
【关键词】:深层网 可视化特征 Web挖掘 语义层次结构 WordNet
【学位授予单位】:杭州电子科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP311.13
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第1章 绪论9-13
- 1.1 研究背景与意义9-11
- 1.2 论文所做工作和创新11-12
- 1.3 论文结构框架12-13
- 第2章 相关研究综述13-31
- 2.1 Deep Web的概念与分类13-15
- 2.2 数据挖掘理论15-20
- 2.2.1 数据挖掘的概念15
- 2.2.2 数据挖掘的系统结构15-16
- 2.2.3 数据挖掘的过程16-18
- 2.2.4 数据挖掘的主要技术18-19
- 2.2.5 数据挖掘的应用19-20
- 2.3 Web数据挖掘20-26
- 2.3.1 Web数据挖掘的概念20-22
- 2.3.2 Web数据挖掘的框架和方法22
- 2.3.3 Web数据挖掘的分类22-25
- 2.3.4 Web数据挖掘的应用25
- 2.3.5 Web数据挖掘的不足之处25-26
- 2.4 深层网挖掘研究综述26-28
- 2.5 深层网入口挖掘研究综述28-31
- 第3章 深层网入口语义信息挖掘31-45
- 3.1 问题提出31
- 3.2 深层网入口分析31-34
- 3.2.1 文本标签与查询元素的关系32-33
- 3.2.2 查询元素间的关系33-34
- 3.3 深层网入口的语义表示34-35
- 3.4 深层网入口的可视化特征35
- 3.5 深层网入口可视化规则35-37
- 3.6 深层网入口语义信息挖掘算法37-45
- 3.6.1 深层网入口挖掘的数据预处理37
- 3.6.2 深层网入口挖掘算法描述37-38
- 3.6.3 可视化模块树获取38-39
- 3.6.4 标签语义树挖掘39-43
- 3.6.5 查询元素与标签树匹配43-45
- 第4章 实验与结果分析45-50
- 4.1 实验数据及环境45
- 4.2 实验评价指标45-46
- 4.3 实验结果46
- 4.4 实验结果分析46-48
- 4.5 实验方法对比48-50
- 第5章 总结与展望50-51
- 致谢51-52
- 参考文献52-56
- 附录 作者在读期间发表的学术论文及参加的科研项目56
【参考文献】
中国期刊全文数据库 前10条
1 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
2 宋晖,张岭,叶允明,马范援;基于标记树对象抽取技术的Hidden Web获取研究[J];计算机工程与应用;2002年23期
3 刘迁;焦慧;贾惠波;;信息抽取技术的发展现状及构建方法的研究[J];计算机应用研究;2007年07期
4 孙彬;王东;李娟;;基于XQuery的Deep Web搜索系统的设计与实现[J];科学技术与工程;2007年16期
5 张大吉;;面向电子商务的Deep Web数据集成研究[J];宁波大学学报(理工版);2008年02期
6 孔令波;唐世渭;杨冬青;王腾蛟;高军;;XML数据索引技术[J];软件学报;2005年12期
7 卫金茂,王石,伊卫国;基于XML的数据挖掘[J];计算机工程与设计;2003年10期
8 郑冬冬;崔志明;;Deep Web爬虫爬行策略研究[J];计算机工程与设计;2006年17期
9 徐远超;刘江华;刘丽珍;关永;;基于Web的网络爬虫的设计与实现[J];微计算机信息;2007年21期
10 曾伟辉;李淼;曾伟辉;;深层网络爬虫研究综述[J];计算机系统应用;2008年05期
中国硕士学位论文全文数据库 前10条
1 李凤慧;面向电子商务的Web数据挖掘的研究[D];山东科技大学;2004年
2 王煜;Internet智能比较购物的研究与实现[D];浙江工商大学;2006年
3 王贤;基于树结构的Deep Web数据抽取研究[D];昆明理工大学;2007年
4 孙
本文编号:332041
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/332041.html