基于概念融合的网页筛选技术研究
发布时间:2021-05-17 17:36
随着网络的迅速发展,互联网在人们日常信息交流中占据越来越重要的地位,网页资源日益丰富,给用户获取信息带来便捷,但同时也带来一些对社会有害的敏感信息。为了给用户提供健康、安全的信息,就有必要对敏感网页进行筛选处理。网页内容安全筛选是通过智能分析网页内容,研究高效分类技术以达到准确筛选网页内容的目的,主流技术包括基于文本内容的网页筛选(TBIF)和基于图像内容的网页筛选(IBIF)。网页通常具有多模态特性,不仅包含图像信息还包含用来描述图像的文本信息,显然,要满足网页筛选的准确性和完整性,在技术设计方案上必须同时考虑两种模态信息的融合处理。融合处理过程中,网页内容特征表示的有效性,多模态数据之间的异构性以及筛选时判定数据所需满足的实时性,都是影响网页内容筛选精度和速度的重要因素。为了提高网页筛选的精度和速度,本文针对网页内容安全筛选中网页表示、异构特征融合、高性能内容筛选等关键问题进行了深入的研究,主要研究内容如下:1)基于文本和图像概念融合的网页筛选框架网页中通常包括文本和图像两种模态信息,利用单一模态信息表示网页,只能筛选部分敏感信息,因此,文本和图像融合处理是改善多模态网页内容筛选准...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 网页筛选技术研究必要性:安全隐患
1.2 网页筛选技术研究现状
1.2.1 基于文本内容的网页筛选方法
1.2.2 基于结构内容的网页筛选
1.2.3 基于可视化内容分析的网页筛选
1.3 网页概念空间提出
1.4 本课题的主要研究内容与组织结构
1.4.1 本课题的研究内容
1.4.2 本课题研究内容的组织结构
本章参考文献
第2章 相关理论及关键技术
2.1 信息筛选技术研究
2.2 安全筛选与信息检索
2.3 信息筛选模型介绍
2.4 文本内容的提取与表示
2.4.1 中文分词技术
2.4.2 文本的向量空间表示模型
2.4.3 文本特征选择与权重计算方法
2.4.4 有意义串提取方法
2.5 图像内容的提取与表示
2.5.1 图像底层物理特征提取
2.5.2 图像局部特征表示(概念表示)
2.6 信息融合技术
2.6.1 信息融合的基本概念
2.6.2 信息融合的方法
2.7 信息筛选算法设计
2.7.1 基于统计的筛选方法
2.7.2 相似性计算的索引方法
2.7.3 评价指标
2.8 本章小结
本章参考文献
第3章 面向文本和图像概念空间的有意义串提取算法
3.1 引言
3.2 算法框架描述
3.3 预处理:网页候选串生成
3.3.1 文本内容候选串生成
3.3.2 图像内容候选串生成
3.4 基于聚类的有意义串提取:概念空间生成
3.4.1 聚类方法描述
3.4.2 基于文档聚类的有意义串提取
3.4.3 基于词聚类的有意义串提取
3.5 实验结果与分析
3.5.1 实验数据集与实验设置
3.5.2 章回小说语料实验结果
3.5.3 敏感数据集实验结果
3.5.4 网页分类实验结果
3.6 本章小结
本章参考文献
第4章 基于高斯局部多核权重模型的多特征概念融合算法
4.1 引言
4.2 基于高斯局部多核权重模型的概念融合算法
4.2.1 多核学习理论框架
4.2.2 局部多核学习
4.2.3 多特征高斯权重函数模型
4.2.4 迭代优化的训练模式
4.2.5 算法描述
4.3 实验结果与分析
4.3.1 实验设置
4.3.2 实验结果
4.3.3 实验结果分析
4.4 本章小结
本章参考文献
第5章 基于最小圆覆盖区域划分的索引筛选算法
5.1 筛选索引树结构特点
5.2 问题描述
5.3 基于最小圆覆盖区域划分的筛选索引方法
5.3.1 最小圆覆盖算法
5.3.2 F-tree索引生成算法
5.3.3 F-tree的相似性查询算法
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 实验结果
5.4.3 实验结果分析
5.5 本章小结
本章参考文献
第6章 结束语
6.1 本文工作总结
6.2 进一步的工作
致谢
参加的科研工作
附录:在攻读博士期间发表的文章
【参考文献】:
期刊论文
[1]稀疏保持典型相关分析及在特征融合中的应用[J]. 侯书东,孙权森. 自动化学报. 2012(04)
[2]多核学习方法[J]. 汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁. 自动化学报. 2010(08)
[3]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[4]一种高性能的两类中文文本分类方法[J]. 樊兴华,孙茂松. 计算机学报. 2006(01)
[5]基于结构特征的nBayes双层过滤模型[J]. 王斌,许洪波,王申. 计算机应用. 2006(01)
[6]一种基于词聚类的中文文本主题抽取方法[J]. 陈炯,张永奎. 计算机应用. 2005(04)
[7]基于关键维的高维空间划分策略[J]. 周项敏,王国仁. 软件学报. 2004(09)
[8]基于人工神经网络的有害信息过滤智能决策系统[J]. 任家东,黄辉宇. 计算机工程. 2004(16)
[9]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄. 中文信息学报. 2004(01)
[10]度量空间中高维索引结构回顾[J]. 刘芳洁,董道国,薛向阳. 计算机科学. 2003(07)
本文编号:3192162
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:115 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 网页筛选技术研究必要性:安全隐患
1.2 网页筛选技术研究现状
1.2.1 基于文本内容的网页筛选方法
1.2.2 基于结构内容的网页筛选
1.2.3 基于可视化内容分析的网页筛选
1.3 网页概念空间提出
1.4 本课题的主要研究内容与组织结构
1.4.1 本课题的研究内容
1.4.2 本课题研究内容的组织结构
本章参考文献
第2章 相关理论及关键技术
2.1 信息筛选技术研究
2.2 安全筛选与信息检索
2.3 信息筛选模型介绍
2.4 文本内容的提取与表示
2.4.1 中文分词技术
2.4.2 文本的向量空间表示模型
2.4.3 文本特征选择与权重计算方法
2.4.4 有意义串提取方法
2.5 图像内容的提取与表示
2.5.1 图像底层物理特征提取
2.5.2 图像局部特征表示(概念表示)
2.6 信息融合技术
2.6.1 信息融合的基本概念
2.6.2 信息融合的方法
2.7 信息筛选算法设计
2.7.1 基于统计的筛选方法
2.7.2 相似性计算的索引方法
2.7.3 评价指标
2.8 本章小结
本章参考文献
第3章 面向文本和图像概念空间的有意义串提取算法
3.1 引言
3.2 算法框架描述
3.3 预处理:网页候选串生成
3.3.1 文本内容候选串生成
3.3.2 图像内容候选串生成
3.4 基于聚类的有意义串提取:概念空间生成
3.4.1 聚类方法描述
3.4.2 基于文档聚类的有意义串提取
3.4.3 基于词聚类的有意义串提取
3.5 实验结果与分析
3.5.1 实验数据集与实验设置
3.5.2 章回小说语料实验结果
3.5.3 敏感数据集实验结果
3.5.4 网页分类实验结果
3.6 本章小结
本章参考文献
第4章 基于高斯局部多核权重模型的多特征概念融合算法
4.1 引言
4.2 基于高斯局部多核权重模型的概念融合算法
4.2.1 多核学习理论框架
4.2.2 局部多核学习
4.2.3 多特征高斯权重函数模型
4.2.4 迭代优化的训练模式
4.2.5 算法描述
4.3 实验结果与分析
4.3.1 实验设置
4.3.2 实验结果
4.3.3 实验结果分析
4.4 本章小结
本章参考文献
第5章 基于最小圆覆盖区域划分的索引筛选算法
5.1 筛选索引树结构特点
5.2 问题描述
5.3 基于最小圆覆盖区域划分的筛选索引方法
5.3.1 最小圆覆盖算法
5.3.2 F-tree索引生成算法
5.3.3 F-tree的相似性查询算法
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 实验结果
5.4.3 实验结果分析
5.5 本章小结
本章参考文献
第6章 结束语
6.1 本文工作总结
6.2 进一步的工作
致谢
参加的科研工作
附录:在攻读博士期间发表的文章
【参考文献】:
期刊论文
[1]稀疏保持典型相关分析及在特征融合中的应用[J]. 侯书东,孙权森. 自动化学报. 2012(04)
[2]多核学习方法[J]. 汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁. 自动化学报. 2010(08)
[3]聚类算法研究[J]. 孙吉贵,刘杰,赵连宇. 软件学报. 2008(01)
[4]一种高性能的两类中文文本分类方法[J]. 樊兴华,孙茂松. 计算机学报. 2006(01)
[5]基于结构特征的nBayes双层过滤模型[J]. 王斌,许洪波,王申. 计算机应用. 2006(01)
[6]一种基于词聚类的中文文本主题抽取方法[J]. 陈炯,张永奎. 计算机应用. 2005(04)
[7]基于关键维的高维空间划分策略[J]. 周项敏,王国仁. 软件学报. 2004(09)
[8]基于人工神经网络的有害信息过滤智能决策系统[J]. 任家东,黄辉宇. 计算机工程. 2004(16)
[9]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄. 中文信息学报. 2004(01)
[10]度量空间中高维索引结构回顾[J]. 刘芳洁,董道国,薛向阳. 计算机科学. 2003(07)
本文编号:3192162
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3192162.html