网页内容分级系统的设计与实现
本文关键词:网页内容分级系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着互联网在社会各个领域的普及和应用,互联网已经成为人类社会不可或缺的重要组成部分。通过互联网传播的网页内容形式多样,如何对这些内容,特别是有害内容进行有效监管,是互联网研究的重要课题。本论文首先分析了世界各国在治理互联网有害信息方面所采取的各种措施,然后从技术角度出发,依据内容分级管理体系思想,结合支持向量机(Support Vector Machine,SVM)网页内容分类算法,提出了一种把网页内容分级和网页自动分级标记相结合的信息过滤系统:该系统以分级标准中的分级条目作为网页自动分级标记的依据,根据提前训练好的分级模板,对用户请求的未分级网页进行自动分级标记,系统最后依据内容分级过滤规则对有害信息进行过滤。在系统实现过程中,论文还引入了一些可行的安全措施,保证整个系统安全高效地运行。 归纳起来,本论文主要做了以下几方面的研究工作: (1)论文分析了网页内容分级和当前主流过滤技术在世界各国的研究与实施现状,针对阻碍网页分级实施的各种不利因素,提出了一种把网页内容分级与网页自动分级标记相结合的信息过滤系统; (2)编程实现了对未分级网页的自动分级标记。该过程主要包括网页信息的提取与转换、网页特征向量计算、分类训练、网页分类以及分级标签生成等几部分。论文还搜集了相关网页数据,进行了实验验证; (3)为保证分级标签与相关网页信息的一致性和分级标签的安全性,系统在生成分级标签的同时,生成了对应网页的信息摘要,并将其作为分级标签的一部分储存在分级标签中,而且还对分级标签采取了数字签名,论文给出了详细的实现步骤和方法。
【关键词】:内容分级 分级标签 文本分类 支持向量机
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.092
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-8
- 目录8-10
- 1 引言10-13
- 2 内容过滤的概念及其分类13-16
- 2.1 内容过滤的基本概念及特征13
- 2.2 内容过滤在网络安全架构中的位置及作用13-14
- 2.3 内容过滤的分类14-16
- 2.3.1 服务器端过滤和客户端过滤14
- 2.3.2 主动过滤和被动过滤14-15
- 2.3.3 基于URL的过滤和基于关键词的过滤15
- 2.3.4 智能文本过滤方法15-16
- 3 内容分级管理体系16-29
- 3.1 内容分级过滤系统的工作原理16-17
- 3.2 分级标准17-18
- 3.2.1 分级词汇17
- 3.2.2 分级标记17-18
- 3.2.3 分级操作方法18
- 3.3 分级标签18-22
- 3.3.1 分级标签的格式18-19
- 3.3.2 分级标签的分类及作用范围19-20
- 3.3.3 分级标签的传输20-21
- 3.3.4 分级标签的生成过程21-22
- 3.4 标签局(LABEL BUREAU)22-24
- 3.5 分级过滤规则描述语言24-25
- 3.6 内容分级的使用方式25-26
- 3.7 我国网络内容分级的发展及现状26-29
- 4 网页内容分级系统的设计29-39
- 4.1 当前常用过滤软件的功能及局限性29-31
- 4.2 内容分级过滤系统存在的问题31-32
- 4.3 一种安全的网页内容分级过滤系统32-33
- 4.4 网页内容分级系统的工作流图33-34
- 4.5 分级标签的一致性与安全性的实现34-37
- 4.5.1 主要实现步骤35-37
- 4.5.2 具体实现方法及对系统的影响分析37
- 4.6 网页内容分级系统的部署方式37-39
- 5 文本网页自动分级系统实现39-52
- 5.1 分类的相关概念39-40
- 5.1.1 文本分类的概念39-40
- 5.1.2 分类的划分40
- 5.2 文本分类主要技术及分类过程40-50
- 5.2.1 文本表示40-41
- 5.2.2 特征项的选择41-42
- 5.2.3 分类算法42-45
- 5.2.4 网页的预处理45-49
- 5.2.5 文本自动分类的过程49-50
- 5.3 自动分级系统功能模块及主要工作过程50-52
- 6 实验与讨论52-58
- 7 结束语58-59
- 参考文献59-61
- 作者简历及攻读硕士学位期间取得的研究成果61-63
- 学位论文数据集63
【相似文献】
中国期刊全文数据库 前10条
1 龚德和;;获取网页内容方法多[J];电脑知识与技术(经验技巧);2007年04期
2 陈欣;卓力;;面向敏感网页识别的网页内容获取方案的设计与实现[J];测控技术;2009年05期
3 邱江涛;唐常杰;李川;朱军;;基于块分布的新闻网页内容提取[J];吉林大学学报(工学版);2009年05期
4 一啸;;精彩内容 瞬间分享[J];电脑迷;2010年10期
5 继华;;时空穿梭 快速找回以前看过的网页内容[J];电脑迷;2010年16期
6 张宝政;;网页内容防采集策略的研究[J];数字技术与应用;2010年05期
7 解姝;叶施仁;肖春;;社会媒体网页内容的分割与抽取[J];计算机工程;2011年21期
8 王悠悠;吴中博;;网页内容提取工具的设计与实现[J];电脑知识与技术;2011年32期
9 王国庆;;如伺保存和修改网页内容[J];广东电脑与电讯;1999年08期
10 齐志勇;;轻松截取无边框网页内容[J];河北教育(教学版);2006年06期
中国重要会议论文全文数据库 前2条
1 李连霞;马军;陈竹敏;;基于多特征的网页内容提取研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
2 张建标;肖创柏;;网页内容实时监控审计系统的设计与实现[A];第十九次全国计算机安全学术交流会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 李点;卫星可加快网页内容传送[N];北京科技报;2001年
2 ;世纪互联推内容加强服务[N];中国电子报;2000年
3 浙江 姚恺丰;屏蔽非打印元素二法[N];电脑报;2004年
4 实习生 马霞;无障碍阅读系统:让互联网不再有“盲区”[N];科技日报;2011年
5 ;学生上网的保护[N];中国电脑教育报;2003年
6 王洁;新手问答[N];中国电脑教育报;2003年
7 李峰 曹诚志;加强反腐倡廉网络宣教的思考[N];中国纪检监察报;2005年
8 张常伟邋罗朱 本报记者 唐先武;用网络贯穿的文化“快车道”[N];科技日报;2008年
9 Xman;熊宝宝图标的EXE文件[N];电脑报;2002年
10 钊;香港网瞅准电视上网[N];中华工商时报;2000年
中国硕士学位论文全文数据库 前10条
1 史正群;网页内容分级系统的设计与实现[D];北京交通大学;2015年
2 苗苗;基于页面分块的网页内容提取的研究与实现[D];武汉理工大学;2010年
3 马晓兰;网页内容分级过滤系统研究[D];华东师范大学;2004年
4 李连霞;基于多特征的HTML网页内容提取的研究[D];山东大学;2008年
5 张强;网页内容获取及基于意图的聚类[D];北京邮电大学;2010年
6 周洪喜;基于人工标注技术的网页内容抽取系统开发[D];复旦大学;2010年
7 解姝;社会媒体网页内容分割与主题频繁簇的抽取[D];湘潭大学;2011年
8 张琼;Web主题网页内容安全监管研究[D];西安电子科技大学;2008年
9 罗超然;一种通用的网页内容抽取模块的设计与实现[D];北京邮电大学;2015年
10 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
本文关键词:网页内容分级系统的设计与实现,由笔耕文化传播整理发布。
,本文编号:418540
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/418540.html