当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于用户浏览行为的深度网络挖掘

发布时间:2018-02-16 01:08

  本文关键词: Deep Web 深度网络挖掘 用户浏览行为 浏览路径 Deep Web数据源发现 Deep Web数据源采集 出处:《中国科学技术大学》2012年博士论文 论文类型:学位论文


【摘要】:近年来,随着互联网的快速发展,网络中蕴含了海量的信息,并且仍在以惊人的速度增长。一般来说,互联网中信息的主要发布形式为静态网页,每个静态网页都含有一定数量的静态超链接,指向其他的静态网页。传统的搜索引擎正是利用这些静态网页中的超链接来收集、索引和显示用户所感兴趣的网页和信息。然而,除此之外,互联网中还有很大一部分信息是以动态数据源的形式存在的。这些信息并不存在于静态网页中,而是存储在网站背后的在线数据库中,并且根据用户的关键词实时地、动态地生成网页来呈现给用户。由于缺乏足够的静态超链接指向这些动态网页,传统的搜索引擎很难发现和索引这些网页,因此这部分信息相对于用户是“隐藏”的。这些“隐藏”信息的集合被称为深度网络(即Deep Web,又名Invisible Web或Hidden Web)。与此相对应,那些静态网页集合被称为Surface Web。 现在,Deep Web的信息量远远超过了Surface Web,尤其是Deep Web中的高质量数据,更是高达Surface Web的2000多倍。但是,有效而充分地利用DeepWeb中的高质量数据在目前仍然是一个巨大的挑战,其中最重要的问题就是Deep Web数据源的发现和Deep Web数据源的采集。一当前的关于Deep Web数据源的发现与采集的研究工作各有一些不足,比如,有些需要人工参与,有些依赖于特定的领域,所以它们都很难大规模应用。因此,本文围绕着Deep Web挖掘的研究,重点关注Deep Web数据源的发现和采集这两个问题,以方便用户利用Deep Web中的信息,进一步推动Deep Web的发展。本文通过仔细分析用户在Deep Web中特有的浏览行为,归纳出了用户在Deep Web中特有的浏览路径,并基于此浏览路径提出了全自动的、不依赖特定领域的、高效的Deep Web数据源发现和采集的方法,使得大规模的Deep Web挖掘成为可能。 本文的创新之处主要有三点: 1.深入分析了网络用户在Deep Web中的浏览行为 首先分析了用户在Surface Web和Deep Web中的浏览记录与浏览行为,并将它们转换为更为直观的图形表示(浏览图),然后仔细对比了它们的不同之处;再结合Deep Web中网页的功能与布局特点和链接规则,最后提出了用户在DeepWeb中的模型化的浏览路径:表单页面→列表页面→目标页面。这条浏览路径很好地描述了用户在Deep Web中的浏览行为的独特性。据我们所知,本文是第一次提出类似的概念。 2.提出了一种高效的发现Deep Web数据源的方法 基于用户在Deep Web中的独特的浏览路径,提出了一种高效的从浏览记录中发现Deep Web数据源的方法。该方法利用Deep Web中的链接特点,首先通过链接聚类把用户浏览过的表单页面、列表页面、目标页面聚类到一块,然后根据用户在浏览过程中的转移关系重建用户的浏览图;接着,该方法从建好的浏览图中检测浏览路径,来发现Deep Web数据源。由于该方法使用链接聚类取代了页面聚类,因此大大提高了Deep Web数据源发现的效率,而且也不依赖于特定的主题。此外,从用户浏览记录中寻找Deep Web数据源,进一步降低了代价,而且提高了发现Deep Web数据源的准确率和发现高质量Deep Web数据源的概率,降低了发现低质量Deep Web数据源的风险。 3.提出了一种高效的采集Deep Web数据源的方法 基于用户在Deep Web中的独特的浏览路径,提出了一种高效的采集DeepWeb数据源的方法。由于用户的浏览过程就是访问大量目标页面的过程,因此我们尝试模拟用户的浏览行为,沿着用户在Deep Web中的浏览路径来获取大量的目标页面。该方法从表单页面出发,首先收集一定数目的列表页面;然后,该方法利用DOM树对齐技术和目标链接的布局特点在列表页面上检测目标链接;之后,在列表页面和目标页面上,该方法利用翻页链接的特点来检测翻页链接。当收集到足够的链接后,该方法会学习这些链接的链接规则,并使用学到的这些链接规则去采集目标Deep Web数据源,以提高采集效率。
[Abstract]:In recent years, with the rapid development of Internet, the network contains a vast amount of information, and is still growing at an alarming rate. In general, Internet information release form is mainly static pages, static static pages each contains a certain number of hyperlinks, refers to static page other traditional search engines are. Is the use of hyperlinks to collect these static pages in the index, and that users are interested in web pages and information. However, in addition, the Internet and a large part of the information is in the form of dynamic data source. This information does not exist in a static page, but stored online database on the site behind and, according to the key words in real time users, dynamically generated web pages to show to the users. Due to the lack of sufficient static hyperlinks to these dynamic pages, the traditional search engine It is difficult to find and index these pages, so this part of the information relative to the user is "hidden". These "hidden" information set is called the depth network (i.e. Deep Web, also known as Invisible Web or Hidden Web). Correspondingly, the static page set is called the Surface Web.
Now, the amount of information Deep Web much more than Surface Web, especially the high quality data of Deep Web, Surface Web is as high as 2000 times. However, effective and full use of high quality data in DeepWeb is still a huge challenge, the most important problem of Web data source is the Deep Web data source discovery and Deep collection. The current research work on the Deep Web data source discovery and acquisition have some shortcomings, for example, some artificial participation, some rely on specific areas, so they are difficult to large scale application. Therefore, this research around Deep Web mining the focus on the Deep Web data source discovery and acquisition of these two issues, for the convenience of users using Deep Web information, promote the further development of Deep Web. Through careful analysis for the user browsing unique in Deep Web To sum up the unique browsing path of users in Deep Web, and based on this browsing path, we propose a fully automatic and efficient way to discover and collect Deep Web data sources, which makes large-scale Deep Web mining possible.
There are three main points in the innovation of this paper.
1. in-depth analysis of the browsing behavior of network users in Deep Web
First analyzes the users in the Surface Web and Deep Web in the browsing and browsing behavior, and convert them into a more intuitive graphical representation (see chart), and then carefully compare their difference; combined with the "Deep in the Web function and layout characteristics and link rules, finally put forward the browsing path the user model in DeepWeb: the form page list page, to the target page. This path has a good description of user browsing behavior in Deep Web's uniqueness. To our knowledge, this is the first time put forward a similar concept.
2. a efficient method for finding Deep Web data sources is proposed.
Users in the Deep Web in the unique browsing path based on the proposed an efficient browsing method found in Deep from the Web data source. This method uses the link characteristics of Deep Web, the first through the link clustering users browse the form page, list page, page clustering to a target, and then according to the user browsing in the process of transfer of the reconstruction of the relationship between the user's browsing map; then, the method built from the browse path detection map, to find the Deep Web data source. Because the method uses link clustering instead of page clustering, thus greatly improving the efficiency of the Deep Web data source discovery, and does not depend on the specific the theme. In addition, from the user browse for Deep Web data source records, to further reduce the cost, but also improve the accuracy of Deep found in the Web data source and found that high quality Deep Web data sources are Rate, reducing the risk of finding a low quality Deep Web data source.
3. a efficient method for collecting Deep Web data sources is proposed.
Users in the Deep Web in the unique browsing path based on the proposed an efficient method of data acquisition source. Because of the DeepWeb user browsing process is to visit a large number of target pages, so we try to simulate the user's browsing behavior, the user browsing paths in Deep Web in order to obtain large amounts of the target page. From the form page of the first collection of a certain number of pages; then, using the layout features of DOM tree alignment technology and target link detection target link in the list on the page; after that, in the list page and the target page, the next page link to detect features page links. When collecting enough after the link, the method will learn these links rules, and use these links to learn rules acquisition target Deep Web data sources, in order to improve the collection efficiency.

【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP393.09

【相似文献】

相关期刊论文 前10条

1 尹春晖;邓伟;;基于用户浏览行为分析的用户兴趣获取[J];计算机技术与发展;2008年05期

2 何忠秀;;领域内用户浏览行为的用户需求知识发现研究[J];郑州大学学报(理学版);2010年02期

3 华咤镇,任和,施伯乐;一种基于元数据的分布式数据源定位算法[J];计算机工程与应用;2002年14期

4 吴琪;一种基于客户端的用户浏览行为的采集方法[J];长春师范学院学报;2005年09期

5 何颖;蒋外文;;基于用户浏览行为挖掘的网站个性化推荐系统[J];电脑知识与技术(学术交流);2007年12期

6 李鹏;乔晓东;韩烽;王继田;梁健;张寅生;;基于用户浏览行为的数据采集及应用[J];现代图书情报技术;2008年11期

7 李伟超;付永华;;一种改进的基于浏览行为的用户兴趣模型[J];电信科学;2011年05期

8 周军;姜元春;林文龙;;基于有向带权图的Web用户浏览行为模型[J];情报理论与实践;2008年05期

9 王莉;;基于用户浏览行为的文献链接分析[J];现代情报;2009年04期

10 许波;张结魁;周军;;基于行为分析的用户兴趣建模[J];情报杂志;2009年06期

相关会议论文 前10条

1 林道庄;郭奇;张志强;冯建华;周立柱;孙静;;基于Metasearch的面向领域的数据源发现和评价方案[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

2 窦赫男;刘正捷;夏季;;序列模式挖掘在网站可用性分析研究上的应用[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国人机交互学术会议(CHCI'06)论文集[C];2006年

3 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

4 陈久军;高济;;基于无侵犯模式的用户数据挖掘[A];2004中国控制与决策学术年会论文集[C];2004年

5 由芳;梁颖蕾;王建民;黄海丹;;网站访问用户的交互行为模式可视化方法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

6 周延泉;张传福;张瑞华;李蕾;何华灿;;移动个性化信息服务中的用户兴趣模型[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年

7 宋爱波;胡孔法;戴青云;董逸生;;Weblog的模糊聚类[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

8 刘绍波;胡盈;郑涵;乐嘉锦;;Web站点链接结构的动态调整模型研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

9 何平;李锦;;基于Web挖掘技术的用户模糊偏好分析[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年

10 李海宏;翟静;唐常杰;李智;;基于用户行为挖掘的个性化Web浏览器原型[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

相关重要报纸文章 前2条

1 本报记者 张帆;安全厂商“掐架” 法律“作壁上观”?[N];中国经济时报;2011年

2 记者 姚琳;广西两位专家入选国家“千人计划”[N];广西日报;2011年

相关博士学位论文 前10条

1 蒋敬田;基于用户浏览行为的深度网络挖掘[D];中国科学技术大学;2012年

2 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年

3 方巍;基于本体的Deep Web信息集成关键技术研究[D];苏州大学;2009年

4 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年

5 李楠;基于关联数据的知识发现研究[D];中国农业科学院;2012年

6 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年

7 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年

8 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年

9 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年

10 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年

相关硕士学位论文 前10条

1 李妹芳;Deep Web数据源发现和选择研究[D];东北大学;2008年

2 屈振东;Deep Web环境下数据源选择和结果缓存的研究[D];东北大学;2009年

3 王海龙;Deep Web数据源发现和分类研究[D];苏州大学;2011年

4 丁宝石;Deep Web数据源分类研究[D];山东大学;2010年

5 吉飞;基于用户浏览行为的网络资源排序研究[D];大连海事大学;2011年

6 张智;基于本体的Deep Web数据源的分类研究[D];南京信息工程大学;2011年

7 戚春超;Deep Web数据源发现与分类研究[D];南京信息工程大学;2011年

8 黄泉杰;网站可用性分析中的三维信息可视化技术应用研究[D];大连海事大学;2005年

9 韩思阳;基于状态转移模型的电子商务网站用户浏览行为分析[D];吉林大学;2009年

10 杜鑫;Deep Web数据源发现与采样研究[D];山东大学;2011年



本文编号:1514308

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1514308.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8912e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com