基于海量互联网网页拓扑结构的作弊链接与恶意网页挖掘
[Abstract]:The World Wide Web provides a large amount of information, and anyone can access it. In order to identify a large number of most valuable information in a web page, the Internet users rely primarily on search engines. The search engine typically classifies a large number of web pages and gives the most relevant web page to the user based on the query relevance and the web page ranking. The user usually accesses the highest ranked web page and ignores the rest. Therefore, in order to attract more Internet user clicks, each web page is highly ranked in a search engine. The search engine is the main method to help users find the desired content. In order to suggest and give the most closely related and most popular web pages for the user's query suggestions, the search engine will assign a ranking to each web page in accordance with certain algorithms that generally increase with the number and ranking of other sites linked to the page. However, cheating-linked attackers have developed several techniques to address these algorithms and improve their own web page ranking. These techniques are typically based on an underground link for collaborative link exchange and a relationship network is established between the cheating link developers to improve their web page ranking in search engine results. In this paper, how to identify the cheating link and the cheating web page for the search engine on the mass Internet nodes and edges, to collect the web pages on the Internet and the hypertext links between them, to construct an Internet topology, The characteristics of the subgraph formed by these cheating links in the whole topology structure are studied and analyzed, and the pointing relation of the cheating links is tracked through the expanded mode, so as to identify the cheating webpage on the Internet. In that study of this paper, we make a comprehensive analysis and summary of the topological structure of the cheating link and the cheating link, and predict the topological structure of the cheating link. And a simple but efficient seed node acquisition and expansion algorithm is proposed in the model. When you expand a seed set, you can find some pages as a set of seeds in the linked farm, and for each new page, if the page has multiple inbound and outbound links from and to, the page is likely to be a subset of the seed set on the same linked farm. You can then expand the seed set by adding a new page. After you get the seed set, you need to expand the steps to find more bad pages in the data set before you can establish a cheating link topology. When an expansion step is performed, if a page points to a pile of bad pages, it is possible that the page itself is bad. Therefore, extend from one page to the linked page, although it follows the inbound link rather than the outbound link. In order to verify the performance of the model proposed in this paper for the web page mining on the Internet, this paper uses the Python crawler module to carry out web-page mining. The experimental data is divided into three groups according to the time-climbing time, and the total amount is 9.5 million pages, which are located in 8452 different domains. The number of the marked cheating pages is 6,208, and the resulting seed nodes are 180. Through three groups of experimental data, the comprehensive accuracy rate of the cheating link and the malicious web page mining model, which is based on the Internet web page topology, is 83.3%, and the purpose of detecting the cheating webpage and linking the farm is basically achieved. And the topological structure of the cheating link and the topological structure of the cheating link topological structure are basically consistent with the predicted topological structure, so that the conjecture of the cheating link topological structure in the paper is basically correct. Further, by tracking the points of the cheating links, finding the cheating web pages they serve, and reporting or publishing the web pages, the chances of reducing the exposure of the cheating web pages in the search engine are reduced, and the Internet security is maintained.
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 吴坤华;论分布式计算机系统常见拓扑结构的优劣和两种拓扑结构的综合[J];龙岩师专学报;1990年02期
2 程代展,,泰化淑,洪奕光;稳定反馈空间的拓扑结构[J];自动化学报;1995年03期
3 刘连元;汉字拓扑结构分析(续)[J];电子出版;1995年07期
4 张桂月;走进网络空间(二)[J];管理信息系统;1999年10期
5 吴萍;论职教刊物的拓扑结构问题[J];南昌职业技术师范学院学报;2000年03期
6 刘红霞;谭璐;吴翊;;保持拓扑结构的低维嵌入[J];计算机应用与软件;2007年07期
7 王若辉;;具有子通信拓扑结构的群集模型的建立[J];齐齐哈尔大学学报(自然科学版);2009年03期
8 廖龙俊;;怎样实现内外网同时访问[J];电脑编程技巧与维护;2012年07期
9 鲁斌,何华灿;联想思维的超拓扑结构模型[J];小型微型计算机系统;2004年06期
10 冯志全;杨波;郑艳伟;唐好魁;李毅;;图像拓扑结构的识别及其应用技术研究[J];系统仿真学报;2008年24期
相关会议论文 前10条
1 张国峰;林新;王行仁;;分级多联邦系统的树拓扑结构研究[A];加入WTO和中国科技与可持续发展——挑战与机遇、责任和对策(下册)[C];2002年
2 吕超;刘爽;王世明;张丽珍;;基于布局拓扑结构的制造系统形性分析摘要[A];中国系统工程学会第十八届学术年会论文集——A06相关学科与系统工程方法[C];2014年
3 李光辉;冯冬芹;曾松伟;;基于拓扑结构分析的等价性验证方法[A];第五届中国测试学术会议论文集[C];2008年
4 俞亚东;黄晓春;;一例具有蜂窝型拓扑结构的二维聚合物直接发射白光[A];中国化学会第29届学术年会摘要集——第13分会:晶体工程[C];2014年
5 房立丰;刘安心;常兴;武光华;李永;;一平移三转动并联稳定平台拓扑结构设计[A];第9届中国机构与机器科学应用国际会议(CCAMMS 2011)暨中国轻工机械协会科技研讨会论文集[C];2011年
6 刘连元;;汉字拓扑结构分析[A];语言文字应用研究论文集(Ⅰ)[C];1995年
7 王长生;;中国公用交互网(中国Internet)的发展与未来[A];四川省通信学会一九九六年学术年会论文集[C];1996年
8 林新;王行仁;彭晓源;;基于树拓扑结构的分级多联邦系统及其时间管理策略[A];2003年全国系统仿真学术年会论文集[C];2003年
9 胡云岗;陈军;李志林;赵仁亮;;基于拓扑结构的道路选取方法研究[A];中国测绘学会第八次全国会员代表大会暨2005年综合性学术年会论文集[C];2005年
10 乐永年;路燕;施宇宏;施伯乐;;基于簇的Web文档拓扑结构的存储方案[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
相关重要报纸文章 前3条
1 中科院计算所 罗杰文;P2P网络的拓扑结构[N];计算机世界;2006年
2 李嘉悦;卫星家族新面孔网络卫星[N];北京科技报;2002年
3 胡德荣;中德科学家联手分析蛋白质拓扑结构和功能[N];健康报;2006年
相关博士学位论文 前10条
1 张青;微米拓扑结构的构建及其用于骨和软骨修复的研究[D];华南理工大学;2015年
2 杜文强;各向异性拓扑结构和刚度细胞培养基底及其在组织工程中的应用[D];中国科学技术大学;2016年
3 李鑫;多节点拓扑结构下随机耦合模型研究[D];清华大学;2015年
4 罗桂兰;嵌入式互联网宏观拓扑结构及统计时间特征研究[D];东北大学;2009年
5 徐峰;互联网宏观拓扑结构中社团特征演化分析及应用[D];东北大学;2009年
6 张文波;Internet宏观拓扑结构的生命特征研究[D];东北大学;2006年
7 夏琼;明度对比和拓扑结构在视知觉中的竞争[D];浙江大学;2008年
8 程学旗;信息网络拓扑结构与内容相关性研究[D];中国科学院研究生院(计算技术研究所);2006年
9 张君;Internet路由级拓扑结构之k-核解析及其建模[D];东北大学;2009年
10 郭正彪;大尺度在线社会网络结构研究[D];华中科技大学;2012年
相关硕士学位论文 前10条
1 王永春;负相容范式中不同质拓扑结构刺激间的客体更新[D];陕西师范大学;2015年
2 李健;面向高速铁路监测的WSNs拓扑结构分析[D];山西大学;2015年
3 张涛涛;热/流均衡的混合型3D NoC拓扑结构设计与映射算法研究[D];南京航空航天大学;2014年
4 张大维;多工器的综合与设计[D];电子科技大学;2014年
5 雷斐;高阶互连网络拓扑结构的设计与分析[D];国防科学技术大学;2013年
6 陆磊;无重叠视域多摄像机目标跟踪若干问题研究[D];合肥工业大学;2015年
7 李丹琳;基于企业网点的拓扑结构应用研究[D];浙江工业大学;2014年
8 安婷;基于植株图像的拓扑结构提取方法研究[D];西北农林科技大学;2016年
9 李佳妮;基于拓扑结构的软件执行过程安全加固技术的研究[D];北京理工大学;2016年
10 郭高攀;低压大功率并网变流器的研制[D];天津工业大学;2016年
本文编号:2453567
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2453567.html