基于程序切片的网页过滤技术
本文关键词:基于程序切片的网页过滤技术,,由笔耕文化传播整理发布。
【摘要】:互联网的高速发展已经使其成为世界上覆盖面最广、范围最大、内容最为丰富的资源库。网络已成为人们获取信息的主要途径,人们可以在搜索引擎里输入要查询的内容,索引出自己要查找的资料。但是随着信息的爆炸,各种无关的信息或者广告掺杂其中,真假难辩。面对庞大的信息资源,如何从中获取有价值的信息成为当前一个非常重要的问题。传统的网页过滤技术通过挖掘网页中的URL和文本来与自己数据库的黑名单进行比对,不仅消耗过多的时间和资源,也加大了服务器的承受能力。本文将程序切片技术应用于网页过滤中,通过将HTML语句构造成树形图,将待过滤的关键字与树形图的叶子结点进行匹配,提取出匹配成功的叶子结点的父结点的行号,制定出切片准则,通过网页代码中存在的新的依赖关系,构建依赖图,在切片准则的基础上对依赖图进行切片处理,得到切片,只保留与切片准则相关的语句集,最后还原成可视化的网页。本文所实现的网页过滤技术,不仅能有效地过滤掉用户不需要的,还可以提取用户感兴趣的,而且过滤的程度也可以进行不同程度的设置,此方法不仅速度快、对服务器的承载能力要求低、还能实现各种个性化的过滤功能。
【关键词】:网页过滤 标签 程序切片 信息提取 依赖图
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 摘要4-5
- Abstract5-8
- 第一章 绪论8-13
- 1.1 研究背景及意义8
- 1.2 国内外研究现状8-9
- 1.3 研究内容及创新点9-11
- 1.4 论文结构及其安排11-13
- 第二章 基本概念13-22
- 2.1 网页过滤基本知识13-16
- 2.1.1 过滤方式13-14
- 2.1.2 网页程序的定义14-15
- 2.1.3 客户端网页中的HTML和JavaScript15
- 2.1.4 网页技术15-16
- 2.2 程序切片的相关知识16-19
- 2.2.1 控制流图16-18
- 2.2.2 数据流图18
- 2.2.3 过程内切片18
- 2.2.4 过程间切片18-19
- 2.2.5 语句级依赖图19
- 2.3 基于依赖图的切片算法19-21
- 2.3.1 基于过程内的程序的依赖图的图可达性算法20
- 2.3.2 基于多个函数的过程间的切片算法20-21
- 2.4 本章小结21-22
- 第三章 网页程序中依赖关系的生成22-30
- 3.1 HTML标签语言中依赖关系的分析22-23
- 3.1.1 HTML语言的简介22
- 3.1.2 HTML标签之间依赖关系22-23
- 3.2 网页代码的依赖关系23-29
- 3.2.1 网页代码控制依赖关系的建立24-26
- 3.2.2 网页代码数据依赖关系的建立26-27
- 3.2.3 网页代码中调用依赖关系的分析27-29
- 3.3 本章小结29-30
- 第四章 基于网页代码依赖图的算法30-45
- 4.1 切片准则的制定31-34
- 4.1.1 HTML标签依赖图的构建31-32
- 4.1.2 分治法在寻找切片准则中的应用32-33
- 4.1.3 KMP算法在寻找切片准则中的应用33-34
- 4.2 网页代码的程序切片34-38
- 4.2.1 根据依赖关系将网页代码构造成依赖图34-35
- 4.2.2 基于网页代码依赖图的切片处理35-38
- 4.3 多精度过滤38-43
- 4.3.1 多精度过滤的信息及其算法40-42
- 4.3.2 可视化准则42-43
- 4.4 本章小结43-45
- 第五章 基于程序切片的网页过滤系统的实现45-50
- 5.1 系统前台和源代码的展示和提取45-47
- 5.2 系统后台过滤部分功能的展示47-48
- 5.3 基于KMP算法的网页过滤与穷举算法的网页过滤的实验比较48-49
- 5.4 本章小结49-50
- 第六章 总结与展望50-51
- 6.1 本文工作总结50
- 6.2 未来工作展望50-51
- 参考文献51-53
- 附录1 攻读硕士学位期间申请的专利53-54
- 致谢54
【相似文献】
中国期刊全文数据库 前10条
1 张东准;网页减肥工具大观[J];电脑技术;2001年04期
2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期
3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期
4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期
5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期
6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期
7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期
8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期
9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期
10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期
中国重要会议论文全文数据库 前7条
1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年
5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年
6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
中国重要报纸全文数据库 前10条
1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年
2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年
3 网天;在自己的电脑上发布网页[N];大众科技报;2000年
4 杨兴平 六子;我的网页你别动[N];电脑报;2004年
5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年
6 河北 李永波;网页底图显个性[N];电脑报;2004年
7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年
8 刘成富;编辑网页有妙法[N];计算机世界;2004年
9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年
10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年
中国博士学位论文全文数据库 前4条
1 李浩;基于眼动特征的小屏幕设备网页内容适配研究[D];华中师范大学;2013年
2 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年
3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年
4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年
2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年
3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年
4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年
5 李亚东;网页取证若干关键问题研究[D];合肥工业大学;2014年
6 孙健;基于程序切片的网页过滤技术[D];南京邮电大学;2015年
7 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年
8 李双;基于用户思维模型分析的网页可用性设计研究[D];江南大学;2008年
9 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
10 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
本文关键词:基于程序切片的网页过滤技术,由笔耕文化传播整理发布。
本文编号:338601
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/338601.html