当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于程序切片的网页过滤技术

发布时间:2017-05-01 09:03

  本文关键词:基于程序切片的网页过滤技术,,由笔耕文化传播整理发布。


【摘要】:互联网的高速发展已经使其成为世界上覆盖面最广、范围最大、内容最为丰富的资源库。网络已成为人们获取信息的主要途径,人们可以在搜索引擎里输入要查询的内容,索引出自己要查找的资料。但是随着信息的爆炸,各种无关的信息或者广告掺杂其中,真假难辩。面对庞大的信息资源,如何从中获取有价值的信息成为当前一个非常重要的问题。传统的网页过滤技术通过挖掘网页中的URL和文本来与自己数据库的黑名单进行比对,不仅消耗过多的时间和资源,也加大了服务器的承受能力。本文将程序切片技术应用于网页过滤中,通过将HTML语句构造成树形图,将待过滤的关键字与树形图的叶子结点进行匹配,提取出匹配成功的叶子结点的父结点的行号,制定出切片准则,通过网页代码中存在的新的依赖关系,构建依赖图,在切片准则的基础上对依赖图进行切片处理,得到切片,只保留与切片准则相关的语句集,最后还原成可视化的网页。本文所实现的网页过滤技术,不仅能有效地过滤掉用户不需要的,还可以提取用户感兴趣的,而且过滤的程度也可以进行不同程度的设置,此方法不仅速度快、对服务器的承载能力要求低、还能实现各种个性化的过滤功能。
【关键词】:网页过滤 标签 程序切片 信息提取 依赖图
【学位授予单位】:南京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第一章 绪论8-13
  • 1.1 研究背景及意义8
  • 1.2 国内外研究现状8-9
  • 1.3 研究内容及创新点9-11
  • 1.4 论文结构及其安排11-13
  • 第二章 基本概念13-22
  • 2.1 网页过滤基本知识13-16
  • 2.1.1 过滤方式13-14
  • 2.1.2 网页程序的定义14-15
  • 2.1.3 客户端网页中的HTML和JavaScript15
  • 2.1.4 网页技术15-16
  • 2.2 程序切片的相关知识16-19
  • 2.2.1 控制流图16-18
  • 2.2.2 数据流图18
  • 2.2.3 过程内切片18
  • 2.2.4 过程间切片18-19
  • 2.2.5 语句级依赖图19
  • 2.3 基于依赖图的切片算法19-21
  • 2.3.1 基于过程内的程序的依赖图的图可达性算法20
  • 2.3.2 基于多个函数的过程间的切片算法20-21
  • 2.4 本章小结21-22
  • 第三章 网页程序中依赖关系的生成22-30
  • 3.1 HTML标签语言中依赖关系的分析22-23
  • 3.1.1 HTML语言的简介22
  • 3.1.2 HTML标签之间依赖关系22-23
  • 3.2 网页代码的依赖关系23-29
  • 3.2.1 网页代码控制依赖关系的建立24-26
  • 3.2.2 网页代码数据依赖关系的建立26-27
  • 3.2.3 网页代码中调用依赖关系的分析27-29
  • 3.3 本章小结29-30
  • 第四章 基于网页代码依赖图的算法30-45
  • 4.1 切片准则的制定31-34
  • 4.1.1 HTML标签依赖图的构建31-32
  • 4.1.2 分治法在寻找切片准则中的应用32-33
  • 4.1.3 KMP算法在寻找切片准则中的应用33-34
  • 4.2 网页代码的程序切片34-38
  • 4.2.1 根据依赖关系将网页代码构造成依赖图34-35
  • 4.2.2 基于网页代码依赖图的切片处理35-38
  • 4.3 多精度过滤38-43
  • 4.3.1 多精度过滤的信息及其算法40-42
  • 4.3.2 可视化准则42-43
  • 4.4 本章小结43-45
  • 第五章 基于程序切片的网页过滤系统的实现45-50
  • 5.1 系统前台和源代码的展示和提取45-47
  • 5.2 系统后台过滤部分功能的展示47-48
  • 5.3 基于KMP算法的网页过滤与穷举算法的网页过滤的实验比较48-49
  • 5.4 本章小结49-50
  • 第六章 总结与展望50-51
  • 6.1 本文工作总结50
  • 6.2 未来工作展望50-51
  • 参考文献51-53
  • 附录1 攻读硕士学位期间申请的专利53-54
  • 致谢54

【相似文献】

中国期刊全文数据库 前10条

1 张东准;网页减肥工具大观[J];电脑技术;2001年04期

2 黄家贞;弹指间网页内码随心换[J];电脑知识与技术;2004年22期

3 黄家贞;弹指间网页内码随心换[J];网络与信息;2004年09期

4 宏伟;巧妙抓取防滚屏网页[J];电脑爱好者;2005年20期

5 启动;;浅谈网页文件引用[J];网络与信息;2006年05期

6 小丛;;教你轻松抓取无法滚屏的网页[J];计算机与网络;2006年08期

7 花的神明;;追寻网页上闪动的音乐[J];电脑迷;2007年12期

8 秋思;;收藏一个网页只需一个文件[J];电脑爱好者(普及版);2009年05期

9 唐永明;;浅议网页设计与制作[J];科技信息;2009年20期

10 蒋伟;徐义平;;个性化网页浅析[J];魅力中国;2009年35期

中国重要会议论文全文数据库 前7条

1 张晓明;奈一雄;齐炯明;安媛媛;张建楠;王静娴;;基于信息隐藏的网页入侵检测技术与实现[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

2 林政;吕雅娟;刘群;马希荣;;基于双语混和网页的平行语料挖掘[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

3 熊德兰;鄢靖丰;陈静;;基于论坛主题的网页褒贬倾向性识别[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

4 隋春明;郭志丰;;网页防篡改技术在电力信息网中的应用[A];二○○九年全国电力企业信息化大会论文集[C];2009年

5 王海源;石睿智;;高校网页恶意代码的检测、清理与预防[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

6 戴玉刚;;藏文网页采集技术研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 刘世杰;唐世渭;杨冬青;王腾蛟;姚小波;;自动的WEB信息提取和集成[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

中国重要报纸全文数据库 前10条

1 范德生 邓亚玲;守住网页的秘密[N];电脑报;2005年

2 贞;网页特效与瘦身专家[N];中国电脑教育报;2002年

3 网天;在自己的电脑上发布网页[N];大众科技报;2000年

4 杨兴平 六子;我的网页你别动[N];电脑报;2004年

5 杨耀祥;简繁网页批量互转有妙法[N];中国电脑教育报;2003年

6 河北 李永波;网页底图显个性[N];电脑报;2004年

7 ;让你的网页绽放最美丽的特效[N];中国电脑教育报;2004年

8 刘成富;编辑网页有妙法[N];计算机世界;2004年

9 绵阳南山 iled;让 Frontpage 2000 给我们“一了百了”[N];电脑报;2001年

10 陈宗伟;妙用查找替换功能编辑网页[N];电脑报;2004年

中国博士学位论文全文数据库 前4条

1 李浩;基于眼动特征的小屏幕设备网页内容适配研究[D];华中师范大学;2013年

2 计华;Web Spam特征分析及其检测技术研究[D];山东师范大学;2015年

3 陈定权;自动主题搜索的应用研究[D];中国科学院研究生院(文献情报中心);2003年

4 胡燕;基于Web信息抽取的专业知识获取方法研究[D];武汉理工大学;2007年

中国硕士学位论文全文数据库 前10条

1 杜明明;基于关键词的垃圾网页判别研究[D];哈尔滨工业大学;2015年

2 刘慕凡;基于主题与语义的作弊网页检测方法研究[D];北京化工大学;2015年

3 贺知义;基于关键词的搜索引擎网页去重算法研究[D];华中师范大学;2015年

4 李小娟;基于分类技术的网页去噪方法的研究[D];贵州师范大学;2015年

5 李亚东;网页取证若干关键问题研究[D];合肥工业大学;2014年

6 孙健;基于程序切片的网页过滤技术[D];南京邮电大学;2015年

7 龚诚;网页增量式采集技术研究[D];哈尔滨工业大学;2007年

8 李双;基于用户思维模型分析的网页可用性设计研究[D];江南大学;2008年

9 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年

10 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年


  本文关键词:基于程序切片的网页过滤技术,由笔耕文化传播整理发布。



本文编号:338601

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/338601.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3cb0e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com