大数据场景中的图像语义信息提取与检索优化研究
发布时间:2021-08-07 06:35
互联网时代,大量即时通讯软件、办公软件、购物平台、游戏平台等极大地便利和丰富了人们的学习、生活与工作,同时也产生了海量的多类别、异构性、非结构化的数据,比如视频、图像、音频、超文本等多媒体数据。大数据时代,图像数据以其直观性和信息大的特点数量爆炸性地增长,给人们生活带来极大的便利,但也因数量巨大、质量参差不齐、应用场景复杂等使得人们对图像处理效果提出了更高的要求,因此提高图像语义信息提取与图像检索的性能自然成了研究的热点。提高图像语义信息提取的性能不但要深入挖掘图像本身的视觉特征,还要深入挖掘图像语义标签以及其它具有语义信息的数据对图像语义信息提取的影响,比如图像的轮廓和纹理可能与图像的分类标签关系密切,搜索引擎中的用户点击日志可以在一定程度上反映出图像检索结果的质量,并反过来用于图像的检索优化。本文充分利用多视图/多模态数据对图像语义信息提取的促进作用以优化图像数据的语义特征提取方法,从而提升图像特征维度约简、三维人体姿态恢复、图像检索以及高分辨率图像分类的性能。本文以图像数据的语义信息提取为切入点,以基于超图的拉普拉斯特征映射、自编码器、深度卷积神经网络、图像增强等为技术手段,对多...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
数据语义信息提取与维度约简方法分类(部分罗列)
?据是在网络之外通过不同的图像预处理方法获取的,这些多视图的数据构成一个数据元组输入到卷积网络。由于元组元素之间信息互为补充,从而可以提高学习的性能。LeNet[134]是最早提出的卷积神经网络之一,是第一个成功用于手写字符识别的卷积神经网络,LeNet的问世推动了深度学习向前发展。多层感知机采用了全连接的网络结构,而卷积神经网络的结构不同于多层感知机,它引入了卷积操作,通过在图像特征图上滑动卷积核进行卷积运算来提取特征。卷积核起到了信号过滤器的作用,不同的卷积核可以提取图像不同类型的特征,如图2-2所示。图2-2同一图像经过大小为3×3的5个不同卷积核的卷积操作后的输出。其中左上角的是原图,其右边5幅图分别是原图经过其对应下方的卷积核进行卷积操作后的输出。当对电子文档放大一定倍数后,不同卷积核对应输出图的差别会更加明显。卷积操作的引入给卷积神经网络带来了两个特性:局部感知与权值共享。局部感知是指卷积核每次操作只与特征图的部分小区域连接,学习特征图的局部特19
悖?渲?第二个卷积层使用16个卷积核在第一池化层的输出上执行卷积操作,生成16个通道的特征图。然后将激活函数作用于所有这16个特征图,接着进行最大池化操作。其后接了两层全连接层用于拟合实际数据的标签。全连接层是传统的多层感知器,在输出层中使用softmax激活函数。全连接表示上一层中的每个神经元都连接到下一层中的每个神经元。除了用于拟合训练数据的实际标签之外,全连接层是学习高层特征的非线性组合的一种常用方法。卷积和池化层中的大多数特征可能对分类任务很有用,但是这些特征的组合可能对分类更有帮助。图2-3LeNet5的网络结构。矩形框下面的数字表示卷积核的个数或是全连接层的神经元个数,图的底部标注了每个矩形框所代表的网络模块及其对应的操作。最原始的版本中采用的非线性激活模块并非Relu,但目前通常的做法是采用Relu来激活,因为Relu的使用会使得网络:(1)运算更快;(2)更容易收敛;(3)更稀疏,从而泛化性更强。当网络构建完毕,便可以输入训练图像样本进行训练,包含以下几个步骤。(1)初始化卷积核与其他连接的权重;(2)输入图像进行前向传播,经过层层运算后得到预测的样本标签;(3)结合预测标签与实际标签的值,计算损失函数的值;(4)使用BP后向传播算法层层往前更新参数的值;(5)重复步骤(2)到步骤(4)直到网络收敛。当测试样本图像输入到LeNet中时,网络将进行正向传播步骤并输出每个类别的概率,如果训练集足够大,网络将能很好地适用于测试图像并将它们分类为正确的类别。20
【参考文献】:
期刊论文
[1]最大规范化依赖性多标记半监督学习方法[J]. 张晨光,张燕,张夏欢. 自动化学报. 2015(09)
[2]基于邻域粗糙集的多标记分类特征选择算法[J]. 段洁,胡清华,张灵均,钱宇华,李德玉. 计算机研究与发展. 2015(01)
[3]邻域系统的不确定性度量方法[J]. 唐朝辉,陈玉明. 控制与决策. 2014(04)
[4]多标签代价敏感分类集成学习算法[J]. 付忠良. 自动化学报. 2014(06)
[5]基于标签集相关性学习的大规模网络图像在线标注[J]. 田枫,沈旭昆. 自动化学报. 2014(08)
[6]一类基于信息熵的多标签特征选择算法[J]. 张振海,李士宁,李志刚,陈昊. 计算机研究与发展. 2013(06)
本文编号:3327275
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
数据语义信息提取与维度约简方法分类(部分罗列)
?据是在网络之外通过不同的图像预处理方法获取的,这些多视图的数据构成一个数据元组输入到卷积网络。由于元组元素之间信息互为补充,从而可以提高学习的性能。LeNet[134]是最早提出的卷积神经网络之一,是第一个成功用于手写字符识别的卷积神经网络,LeNet的问世推动了深度学习向前发展。多层感知机采用了全连接的网络结构,而卷积神经网络的结构不同于多层感知机,它引入了卷积操作,通过在图像特征图上滑动卷积核进行卷积运算来提取特征。卷积核起到了信号过滤器的作用,不同的卷积核可以提取图像不同类型的特征,如图2-2所示。图2-2同一图像经过大小为3×3的5个不同卷积核的卷积操作后的输出。其中左上角的是原图,其右边5幅图分别是原图经过其对应下方的卷积核进行卷积操作后的输出。当对电子文档放大一定倍数后,不同卷积核对应输出图的差别会更加明显。卷积操作的引入给卷积神经网络带来了两个特性:局部感知与权值共享。局部感知是指卷积核每次操作只与特征图的部分小区域连接,学习特征图的局部特19
悖?渲?第二个卷积层使用16个卷积核在第一池化层的输出上执行卷积操作,生成16个通道的特征图。然后将激活函数作用于所有这16个特征图,接着进行最大池化操作。其后接了两层全连接层用于拟合实际数据的标签。全连接层是传统的多层感知器,在输出层中使用softmax激活函数。全连接表示上一层中的每个神经元都连接到下一层中的每个神经元。除了用于拟合训练数据的实际标签之外,全连接层是学习高层特征的非线性组合的一种常用方法。卷积和池化层中的大多数特征可能对分类任务很有用,但是这些特征的组合可能对分类更有帮助。图2-3LeNet5的网络结构。矩形框下面的数字表示卷积核的个数或是全连接层的神经元个数,图的底部标注了每个矩形框所代表的网络模块及其对应的操作。最原始的版本中采用的非线性激活模块并非Relu,但目前通常的做法是采用Relu来激活,因为Relu的使用会使得网络:(1)运算更快;(2)更容易收敛;(3)更稀疏,从而泛化性更强。当网络构建完毕,便可以输入训练图像样本进行训练,包含以下几个步骤。(1)初始化卷积核与其他连接的权重;(2)输入图像进行前向传播,经过层层运算后得到预测的样本标签;(3)结合预测标签与实际标签的值,计算损失函数的值;(4)使用BP后向传播算法层层往前更新参数的值;(5)重复步骤(2)到步骤(4)直到网络收敛。当测试样本图像输入到LeNet中时,网络将进行正向传播步骤并输出每个类别的概率,如果训练集足够大,网络将能很好地适用于测试图像并将它们分类为正确的类别。20
【参考文献】:
期刊论文
[1]最大规范化依赖性多标记半监督学习方法[J]. 张晨光,张燕,张夏欢. 自动化学报. 2015(09)
[2]基于邻域粗糙集的多标记分类特征选择算法[J]. 段洁,胡清华,张灵均,钱宇华,李德玉. 计算机研究与发展. 2015(01)
[3]邻域系统的不确定性度量方法[J]. 唐朝辉,陈玉明. 控制与决策. 2014(04)
[4]多标签代价敏感分类集成学习算法[J]. 付忠良. 自动化学报. 2014(06)
[5]基于标签集相关性学习的大规模网络图像在线标注[J]. 田枫,沈旭昆. 自动化学报. 2014(08)
[6]一类基于信息熵的多标签特征选择算法[J]. 张振海,李士宁,李志刚,陈昊. 计算机研究与发展. 2013(06)
本文编号:3327275
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3327275.html