暗网资源挖掘的关键技术研究
本文关键词: 暗网 查询接口 更多链接发现 出处:《西安电子科技大学》2013年硕士论文 论文类型:学位论文
【摘要】:进入21世纪后,科技发展日新月异,互联网技术飞速发展,特别是Web2.0技术的引入使得互联网应用渗透到社会生活的各领域。人们从互联网上获取信息的手段通常是使用浏览器,而浏览器搜索的基础是搜索引擎,搜索引擎是指自动从互联网搜集信息,经相关整理后给用户进行查询的系统。搜索引擎索引的资源通过搜索程序检索信息,这些搜索程序就像蜘蛛一样在网络间爬来爬去,被称为网络爬虫,网络爬虫根据网页中的超链接关系抓取资源,这些资源被称为浅层网络资源。然而,互联网中还存在很多资源无法通过网络爬虫直接获取,这些资源隐藏在Web数据库中,只能通过与数据库相关的查询接口提交查询的方式访问,这些资源被称为暗网资源。如果搜索引擎能够对其进行检索,将对提高搜索引擎的资源覆盖率有重要的现实意义。 本文针对暗网(Hidden Web)资源挖掘进行了深入研究,分析暗网资源挖掘中的难点问题并提出了解决这些问题的算法。本文的主要工作包括以下几个部分: (1)对暗网查询接口识别和分类的分析与研究; (2)设计了暗网查询接口的查询构造方法; (3)设计并实现了算法来验证构造的URL链接的有效性,,URL链接的有效性基于该URL对应的页面信息的有效性; (4)设计并实现了更多链接发现算法。
[Abstract]:In 21th century, with the rapid development of science and technology and the rapid development of Internet technology, especially the introduction of Web2.0 technology, Internet applications infiltrate into various fields of social life. People usually use browsers to obtain information from the Internet. The foundation of browser search is search engine. Search engine is a system that automatically collects information from the Internet and queries users after related collation. The resources of search engine index retrieve information through search program. These search programs are like spiders crawling around the web, known as web crawlers, which grab resources based on hyperlinks in a Web page, which are called shallow web resources. There are still many resources in the Internet that can not be directly obtained by the web crawler. These resources are hidden in the Web database and can only be accessed by submitting the query through the query interface related to the database. These resources are called dark web resources. If search engines can search them, it will be of great practical significance to improve the resource coverage of search engines. In this paper, we deeply study the hidden network resource mining, analyze the difficult problems in the dark network resource mining and propose the algorithms to solve these problems. The main work of this paper includes the following parts:. 1) the analysis and research on the identification and classification of the dark network query interface; 2) the query construction method of the dark network query interface is designed. 3) the algorithm is designed and implemented to verify the validity of the constructed URL link. The validity of the URL link is based on the page information corresponding to the URL. 4) more link discovery algorithms are designed and implemented.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3
【参考文献】
相关期刊论文 前10条
1 刘芳;;查询自动生成器在Web数据库发现中的应用[J];信息技术;2009年06期
2 寇月;李冬;申德荣;于戈;聂铁铮;;D-EEM:一种基于DOM树的Deep Web实体抽取机制[J];计算机研究与发展;2010年05期
3 王芳;于浩;谭红叶;赵铁军;;基于链接分块的相关链接提取方法[J];计算机工程与应用;2006年31期
4 李道国;苗夺谦;张东星;张红云;;粒度计算研究综述[J];计算机科学;2005年09期
5 陈珂;陈小英;徐科;;Hidden Web信息获取[J];计算机时代;2007年05期
6 孔波;刘小茂;张钧;;基于中心距离比值的增量支持向量机[J];计算机应用;2006年06期
7 孔锐,张冰;一种快速支持向量机增量学习算法[J];控制与决策;2005年10期
8 郑冬冬;崔志明;;Deep Web爬虫爬行策略研究[J];计算机工程与设计;2006年17期
9 程伟;石扬;张燕平;;粒度计算的三种主要方法[J];计算机技术与发展;2007年03期
10 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期
相关博士学位论文 前1条
1 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
相关硕士学位论文 前1条
1 黄黎;基于知识模型推理的Deep Web数据源分类研究[D];苏州大学;2009年
本文编号:1554986
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/1554986.html