当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于海量互联网网页拓扑结构的作弊链接与恶意网页挖掘

发布时间:2019-04-03 20:50
【摘要】:万维网提供了大量的信息,任何人都可以访问它。为了识别网页中大量最有价值的信息,互联网用户主要依赖于搜索引擎。搜索引擎通常对大量网页进行分类,并且根据查询相关性与网页排名给出与用户查询最相关的网页。用户通常访问排名最高的网页,忽略其余部分。所以,为了吸引更多互联网用户点击,每个网页在搜索引擎中获得较高排名是非常重要的。搜索引擎是帮助用户找到所需内容的主要方法。为了针对用户的查询建议并给出最密切相关和最流行的网页,搜索引擎会根据某些算法向每个网页分配排名,该排名通常随着链接到该页面的其他网站的数量和排名而增加。然而,作弊链接攻击者已经开发出几种技术来应对这些算法,并提高其自身网页的排名。这些技术通常基于用于协作链路交换的地下链接,在作弊链接开发者之间建立关系网络以在搜索引擎结果中提高他们的网页排名。本文研究如何在海量互联网节点和边之上识别针对搜索引擎的作弊链接与作弊网页,收集互联网上的网页以及他们之间的超文本链接,构造一个互联网拓扑,研究和分析这些作弊链接构成的子图在整个拓扑结构中的特征,并通过扩展的方式追踪这些作弊链接的指向关系,从而识别互联网上的作弊网页。在本文研究中,我们对作弊网页与作弊链接拓扑结构特征进行了比较全面的分析与总结,预测了作弊链接拓扑结构特征,并且根据作弊网页分类与作弊链接拓扑结构特征提出了基于互联网网页拓扑结构的作弊链接与恶意网页挖掘模型,并在该模型中提出了一种简单但高效的种子节点采集与扩展算法。在扩展种子集时,可以在链接农场中找到一些页面作为种子集,则对于每个新页面,如果页面具有从和到达的多个入站链路和出站链路,则该页面很可能是同一链接农场的一部分种子集。然后可以通过添加新页面来扩展种子集。得到种子集后,需要扩展步骤来在数据集中找到更多的坏页,才能建立作弊链接拓扑结构。进行扩展步骤时,如果一个页面指向一堆坏页面,很可能这个页面本身是坏的。因此,从一个页面扩展到链接页面,尽管这里遵循入站链接而不是出站链接。为了验证本文所提出的模型对于互联网上作弊网页挖掘的性能,本文使用Python爬虫模块进行网页挖掘,实验数据根据爬取时间分为三组,共计9.5万页,这些页面位于8452个不同的域中。其中标记作弊网页数共计6208个,得到的种子节点180个。通过三组实验数据显示,本文所提出的基于互联网网页拓扑结构的作弊链接与恶意网页挖掘模型的综合准确率为83.3%,基本上达到了检测作弊网页与链接农场的目的。并且通过实验数据所绘制的作弊链接拓扑结构与作弊链接拓扑结构特征预测所预测的拓扑结构基本一致,从而证明了本文中所对作弊链接拓扑结构的猜想是基本正确的。进一步,通过跟踪这些作弊链接的指向,找到他们所服务的作弊网页,并将这些网页进行举报或者公示,从而达到降低这些作弊网页在搜索引擎中曝光的几率,维护互联网安全。
[Abstract]:The World Wide Web provides a large amount of information, and anyone can access it. In order to identify a large number of most valuable information in a web page, the Internet users rely primarily on search engines. The search engine typically classifies a large number of web pages and gives the most relevant web page to the user based on the query relevance and the web page ranking. The user usually accesses the highest ranked web page and ignores the rest. Therefore, in order to attract more Internet user clicks, each web page is highly ranked in a search engine. The search engine is the main method to help users find the desired content. In order to suggest and give the most closely related and most popular web pages for the user's query suggestions, the search engine will assign a ranking to each web page in accordance with certain algorithms that generally increase with the number and ranking of other sites linked to the page. However, cheating-linked attackers have developed several techniques to address these algorithms and improve their own web page ranking. These techniques are typically based on an underground link for collaborative link exchange and a relationship network is established between the cheating link developers to improve their web page ranking in search engine results. In this paper, how to identify the cheating link and the cheating web page for the search engine on the mass Internet nodes and edges, to collect the web pages on the Internet and the hypertext links between them, to construct an Internet topology, The characteristics of the subgraph formed by these cheating links in the whole topology structure are studied and analyzed, and the pointing relation of the cheating links is tracked through the expanded mode, so as to identify the cheating webpage on the Internet. In that study of this paper, we make a comprehensive analysis and summary of the topological structure of the cheating link and the cheating link, and predict the topological structure of the cheating link. And a simple but efficient seed node acquisition and expansion algorithm is proposed in the model. When you expand a seed set, you can find some pages as a set of seeds in the linked farm, and for each new page, if the page has multiple inbound and outbound links from and to, the page is likely to be a subset of the seed set on the same linked farm. You can then expand the seed set by adding a new page. After you get the seed set, you need to expand the steps to find more bad pages in the data set before you can establish a cheating link topology. When an expansion step is performed, if a page points to a pile of bad pages, it is possible that the page itself is bad. Therefore, extend from one page to the linked page, although it follows the inbound link rather than the outbound link. In order to verify the performance of the model proposed in this paper for the web page mining on the Internet, this paper uses the Python crawler module to carry out web-page mining. The experimental data is divided into three groups according to the time-climbing time, and the total amount is 9.5 million pages, which are located in 8452 different domains. The number of the marked cheating pages is 6,208, and the resulting seed nodes are 180. Through three groups of experimental data, the comprehensive accuracy rate of the cheating link and the malicious web page mining model, which is based on the Internet web page topology, is 83.3%, and the purpose of detecting the cheating webpage and linking the farm is basically achieved. And the topological structure of the cheating link and the topological structure of the cheating link topological structure are basically consistent with the predicted topological structure, so that the conjecture of the cheating link topological structure in the paper is basically correct. Further, by tracking the points of the cheating links, finding the cheating web pages they serve, and reporting or publishing the web pages, the chances of reducing the exposure of the cheating web pages in the search engine are reduced, and the Internet security is maintained.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092

【相似文献】

相关期刊论文 前10条

1 吴坤华;论分布式计算机系统常见拓扑结构的优劣和两种拓扑结构的综合[J];龙岩师专学报;1990年02期

2 程代展,,泰化淑,洪奕光;稳定反馈空间的拓扑结构[J];自动化学报;1995年03期

3 刘连元;汉字拓扑结构分析(续)[J];电子出版;1995年07期

4 张桂月;走进网络空间(二)[J];管理信息系统;1999年10期

5 吴萍;论职教刊物的拓扑结构问题[J];南昌职业技术师范学院学报;2000年03期

6 刘红霞;谭璐;吴翊;;保持拓扑结构的低维嵌入[J];计算机应用与软件;2007年07期

7 王若辉;;具有子通信拓扑结构的群集模型的建立[J];齐齐哈尔大学学报(自然科学版);2009年03期

8 廖龙俊;;怎样实现内外网同时访问[J];电脑编程技巧与维护;2012年07期

9 鲁斌,何华灿;联想思维的超拓扑结构模型[J];小型微型计算机系统;2004年06期

10 冯志全;杨波;郑艳伟;唐好魁;李毅;;图像拓扑结构的识别及其应用技术研究[J];系统仿真学报;2008年24期

相关会议论文 前10条

1 张国峰;林新;王行仁;;分级多联邦系统的树拓扑结构研究[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年

2 吕超;刘爽;王世明;张丽珍;;基于布局拓扑结构的制造系统形性分析摘要[A];中国系统工程学会第十八届学术年会论文集——A06相关学科与系统工程方法[C];2014年

3 李光辉;冯冬芹;曾松伟;;基于拓扑结构分析的等价性验证方法[A];第五届中国测试学术会议论文集[C];2008年

4 俞亚东;黄晓春;;一例具有蜂窝型拓扑结构的二维聚合物直接发射白光[A];中国化学会第29届学术年会摘要集——第13分会:晶体工程[C];2014年

5 房立丰;刘安心;常兴;武光华;李永;;一平移三转动并联稳定平台拓扑结构设计[A];第9届中国机构与机器科学应用国际会议(CCAMMS 2011)暨中国轻工机械协会科技研讨会论文集[C];2011年

6 刘连元;;汉字拓扑结构分析[A];语言文字应用研究论文集(Ⅰ)[C];1995年

7 王长生;;中国公用交互网(中国Internet)的发展与未来[A];四川省通信学会一九九六年学术年会论文集[C];1996年

8 林新;王行仁;彭晓源;;基于树拓扑结构的分级多联邦系统及其时间管理策略[A];2003年全国系统仿真学术年会论文集[C];2003年

9 胡云岗;陈军;李志林;赵仁亮;;基于拓扑结构的道路选取方法研究[A];中国测绘学会第八次全国会员代表大会暨2005年综合性学术年会论文集[C];2005年

10 乐永年;路燕;施宇宏;施伯乐;;基于簇的Web文档拓扑结构的存储方案[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年

相关重要报纸文章 前3条

1 中科院计算所 罗杰文;P2P网络的拓扑结构[N];计算机世界;2006年

2 李嘉悦;卫星家族新面孔网络卫星[N];北京科技报;2002年

3 胡德荣;中德科学家联手分析蛋白质拓扑结构和功能[N];健康报;2006年

相关博士学位论文 前10条

1 张青;微米拓扑结构的构建及其用于骨和软骨修复的研究[D];华南理工大学;2015年

2 杜文强;各向异性拓扑结构和刚度细胞培养基底及其在组织工程中的应用[D];中国科学技术大学;2016年

3 李鑫;多节点拓扑结构下随机耦合模型研究[D];清华大学;2015年

4 罗桂兰;嵌入式互联网宏观拓扑结构及统计时间特征研究[D];东北大学;2009年

5 徐峰;互联网宏观拓扑结构中社团特征演化分析及应用[D];东北大学;2009年

6 张文波;Internet宏观拓扑结构的生命特征研究[D];东北大学;2006年

7 夏琼;明度对比和拓扑结构在视知觉中的竞争[D];浙江大学;2008年

8 程学旗;信息网络拓扑结构与内容相关性研究[D];中国科学院研究生院(计算技术研究所);2006年

9 张君;Internet路由级拓扑结构之k-核解析及其建模[D];东北大学;2009年

10 郭正彪;大尺度在线社会网络结构研究[D];华中科技大学;2012年

相关硕士学位论文 前10条

1 王永春;负相容范式中不同质拓扑结构刺激间的客体更新[D];陕西师范大学;2015年

2 李健;面向高速铁路监测的WSNs拓扑结构分析[D];山西大学;2015年

3 张涛涛;热/流均衡的混合型3D NoC拓扑结构设计与映射算法研究[D];南京航空航天大学;2014年

4 张大维;多工器的综合与设计[D];电子科技大学;2014年

5 雷斐;高阶互连网络拓扑结构的设计与分析[D];国防科学技术大学;2013年

6 陆磊;无重叠视域多摄像机目标跟踪若干问题研究[D];合肥工业大学;2015年

7 李丹琳;基于企业网点的拓扑结构应用研究[D];浙江工业大学;2014年

8 安婷;基于植株图像的拓扑结构提取方法研究[D];西北农林科技大学;2016年

9 李佳妮;基于拓扑结构的软件执行过程安全加固技术的研究[D];北京理工大学;2016年

10 郭高攀;低压大功率并网变流器的研制[D];天津工业大学;2016年



本文编号:2453567

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2453567.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3ad2e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com