基于内容的不良网页信息过滤方法研究

发布时间：2022-01-06 17:36

　　随着信息时代的迅猛发展，网络信息在带给我方便的同时，也带来了很多垃圾信息和有害信息。这些信息不但影响我们对网络的正常使用，并且有些不当内容对青少年网友毒害很深。因此面对庞大的网页数量，如何高效的过滤网页信息，逐渐被人们所重视。本文以基于网页文字内容的过滤为主要研究方向，详细介绍了网页过滤的主要流程和当前主要的过滤方法。文中首先介绍了采用以基于文字内容过滤网页的合理性，以网页过滤的流程为主要线索，采用了以下环节：文本预处理，特征选择，特征加权，分类计算，性能评估等。分析比较了当前主流的方法，以提高特征独立性和提高分类准确率为研究方向，提出了基于特征簇的向量模型和双层过滤的分类器架构。通过实验对比，双层过滤器在正确率、错误率、召回率、精确率和F1值等评价标准上，要好于单层的朴素贝叶斯或支持向量机分类。

【文章来源】：吉林大学吉林省 211工程院校 985工程院校教育部直属院校

【文章页数】：60 页

【学位级别】：硕士

【部分图文】：

基于内容的不良网页信息过滤方法研究

中国网民规模与普及率

通信过程,网页

况下会有文字进行概括说明。对于一个网页文字信息的提取和解读可以判定该网页为不良信息的载体，基于文本内容的网页过滤就是首先把网页中的文字信息进行，然后表示成计算机能运算处理的形式，通过分类算法对网页进行过滤分类。.1 网页信息的传输和 HTML 文档标签加权Web 的应用层协议 HTTP 是网页的核心，我们通常浏览的网页信息都是通TTP(超文本传输协议)来传送的，它把 www 远端服务器的超文本信息传送到客户浏，它可以使网络传输流量减少，使浏览器更加高效，其不但可以快速的传输超文本，还能准确的传输客户想要的部分，自 www 诞生以来，方便快捷信息便触手可得个绚丽多彩的世界就展现在我们面前了。首先看一下 HTTP 协议是如何工作的[11]：HTTP 协议是基于请求→响应模式的，相当于客户机/服务器，客户和服务器的信换过程分为 4 个阶段：建立连接，发送请求信息，回送响应信息，关闭连接，具体过程如图所示：

特殊形式,文档,信息载体,标签

图 2.2 HTML 文档一般格式代表的含义不同，所以针对网页这种特殊形式的信息载方面要过滤掉其中图片、脚本等非文字的信息内容，简<IMG>图片，<SCRIPT>脚本，<BUTTON>按钮，<IN接删除；另一方面对于重要的标签中内容，要强调、突的归类起到关键作用，本文在过滤时主要考虑以下标签题，其概括了整个 web 信息的内容，是整篇文档的精华高权值。>..<H3>……<H6>各级小标题，这是各级段落内容的中内容，其重要程度由 H1 到 H6 逐渐降低。，<U>下划线，<I>斜体字，三种格式改变了文字显示效调显示，往往凸显文档的意图。的确定，需要多次试验反复调试，参考[12] [13] [14]和自己表 2.1 HTML 文档标记权值系数表

本文编号：3572883

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3572883.html

上一篇：基于Hadoop海量数据微博系统的设计与实现
下一篇：校园网络安全防护关键技术分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|