互联网图像搜索中的多模态融合

发布时间:2017-06-25 23:19

  本文关键词:互联网图像搜索中的多模态融合,,由笔耕文化传播整理发布。


【摘要】:面对互联网图像搜索的海量、多模态的信息特征,现有图像搜图像、文本搜图像、图文结合搜图像的系统都有不尽如人意之处。为了搜到尽可能多、全面的图像,很有必要研究互联网图像搜索中的多模态融合。互联网图像搜索本质上是一种多模态学习问题。在以往对它们的研究中,涌现出许多算法和思想流派:矢量量化或共生模型、机器翻译模型、相关模型、加入类别信息的结构模型、多标注学习、互补的多模态融合、基于矩阵分解的多模态融合、基于调和场模型的多模态融合、基于对齐学习的多模态融合、多模态联合学习、一致性的多模态学习、大数据驱动的多模态学习。总结其优缺点,我们提出了要构建的多模态学习模型的设计需求。 一种用文档-词条关系矩阵传播、叠加两者的相关度矩阵以学习文档语义相似度的模型被用在了多模态相似度矩阵的互相增强上。本文分析了其用在多模态学习上的不同之处,提出了加入模态内高阶相似度增强的多模态融合模型;分析了现有既考虑多数据域互相增强又考虑数据域间相关关系增强的多数据域相似度融合算法,结合多模态相似度融合的加性特点,提出了用模态间对齐去增强模态间相关关系;为了得到多模态之间匹配的相关关系,提出一种以模态间对齐为优化目标的统计模型,并把它和典型相关分析做了类比分析。大量实验用于探究它们在多模态图像搜索应用中的表现和有效性。 核矩阵可以描述流形,可以把多个模态的数据投影到相似度空间相互比较。核矩阵代表的马尔可夫场的传播、对齐、流形特征都可以用引入电势概念的电路网络描述。单模态搜索可以表示为有源电路网络,等价于谱聚类。电路网络模型有其希尔伯特空间解释。网页排名、流形排序算法都可以表示为电路网络模型,由此可以反推出有源电路网络的快速迭代算法。建立了基于电路网络的多图融合模型。该模型可以用正则化优化式来表达并进一步扩展。实验验证了用电路网络做多模态融合的有效性和优势。 用泊松方程理论上解释了电路网络模型,用非齐次热传导方程解释了电路网络模型的快速迭代算法、模态内高阶相似度增强的合理性;在扩散的多尺度分析基础上,分析了流形上的多尺度空间;借鉴传统信号处理中克服信号截短的缺点的对策,提出了相似度矩阵取行近邻的多分辨率滤波方案;利用偏微分方程方便加边界条件的优势,提出了基于电路网络的多模态融合模型添加模态间对齐增强的方法。 总结了本文的技术路线、四方面贡献,并给出了以后的工作展望。
【关键词】:互联网图像搜索 多模态融合 流形 对齐增强 电路网络模型 正则化 偏微分方程 多尺度 多分辨率滤波
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.41
【目录】:
  • 摘要5-7
  • ABSTRACT7-12
  • 第1章 综述12-39
  • 1.1 互联网图像搜索的现状12-15
  • 1.2 图像搜索及多模态学习的进展15-35
  • 1.2.1 失量量化或共生模型16-17
  • 1.2.2 机器翻译模型17-18
  • 1.2.3 相关模型18-19
  • 1.2.4 加入类别信息的结构模型19-24
  • 1.2.5 多标注学24-25
  • 1.2.6 互补的多模态融合25
  • 1.2.7 基于矩阵分解的多模态融合25-27
  • 1.2.8 基于调和场模型的多模态融合27-29
  • 1.2.9 基于对齐学习的多模态融合29-31
  • 1.2.10 多模态联合学习31-33
  • 1.2.11 一致性的多模态学习33-34
  • 1.2.12 大数据驱动的多模态学习34-35
  • 1.3 多模态学习模型的设计需求35-36
  • 1.4 小结36-37
  • 1.5 全文章节安排37-39
  • 第2章 对齐增强的多模态融合39-60
  • 2.1 多模态互相增强的模型39-40
  • 2.2 模态内高阶相似度的增强40-41
  • 2.3 多模态之间的对齐增强41-43
  • 2.4 多模态之间的匹配43-45
  • 2.5 实验与分析45-59
  • 2.5.1 模态间关系增强方法的对比实验45-54
  • 2.5.2 模态内高阶相似度增强的实验54-57
  • 2.5.3 模态间相关关系预测的对比实验57-59
  • 2.6 小结59-60
  • 第3章 基于电路网络的多模态融合60-77
  • 3.1 核矩阵60-61
  • 3.2 马尔可夫场和电路网络61-62
  • 3.3 单源单地电路网络和谱聚类62-63
  • 3.4 单地多源电路网络和等周分割模型63-64
  • 3.5 电路网络的希尔伯特空间解释64-65
  • 3.6 电路网络和网页排名、流形排序的联系65-68
  • 3.7 基于电路网络的多图融合模型68-69
  • 3.8 基于电路网络的多图融合模型的正则化表达69-71
  • 3.9 实验及分析71-75
  • 3.9.1 无监督情况下单模态搜索性能评估72-73
  • 3.9.2 无监督情况下多模态融合后搜索性能评估73-75
  • 3.10 小结75-77
  • 第4章 多模态融合的深入分析77-88
  • 4.1 流形的偏微分方程分析77-78
  • 4.2 扩散的多尺度分析78-79
  • 4.3 流形的多尺度分析79-80
  • 4.4 k近邻核的多分辨率去噪80-82
  • 4.5 多模态融合的偏微分方程分析82-83
  • 4.6 实验与分析83-87
  • 4.6.1 多分辨率近邻滤波的对比实验84-85
  • 4.6.2 基于电路网络的多模态融合加模态间对齐增强的对比实验85-87
  • 4.7 小结与展望87-88
  • 第5章 总结与展望88-93
  • 5.1 本文的技术路线88-89
  • 5.2 本文的贡献89-90
  • 5.3 工作展望90-93
  • 参考文献93-102
  • 致谢102-103
  • 在读期间发表的学术论文与取得的其他研究成果10

【共引文献】

中国期刊全文数据库 前10条

1 韩强;;基于广义Hough变换的手写文档整词定位[J];安徽电子信息职业技术学院学报;2011年05期

2 程刚;郑小华;阳锋;徐祖舰;;三维全景视觉技术在农业机器人中的应用[J];安徽农业科学;2010年34期

3 何海燕;施培蓓;;基于改进AdaBoost算法的行人检测方法[J];安庆师范学院学报(自然科学版);2009年03期

4 吴慧兰;刘国栋;刘炳国;胡涛;浦昭邦;;ICF实验靶定位技术研究[J];半导体光电;2008年05期

5 陈京;袁保宗;刘渭滨;;多视点标定图像的交替迭代度量重建方法[J];北京交通大学学报;2012年02期

6 周峰;刘辉;李超峰;;SIFT算法在图像配准中的应用[J];办公自动化;2009年22期

7 刘彬;叶丽娜;;一种基于SIFT特征的序列图像拼接算法[J];兵工自动化;2009年06期

8 刘焕敏;王华;段慧芬;;一种改进的SIFT双向匹配算法[J];兵工自动化;2009年06期

9 彭勃;周文晖;刘济林;;基于Harris角点检测的立体视觉里程计[J];兵工学报;2007年12期

10 陈冰;赵亦工;李欣;;基于高斯尺度空间的末制导目标跟踪方法[J];兵工学报;2009年05期

中国重要会议论文全文数据库 前10条

1 刘善磊;张亮;;基于相位相关和SURF算法的关键帧实时匹配研究[A];江苏省测绘学会2011年学术年会论文集[C];2011年

2 隋树林;孙立宏;姚文龙;袁健;;融合改进UKF/SIFT信息的自主光学导航方法[A];第二十六届中国控制会议论文集[C];2007年

3 汪力;叶桦;夏良正;;利用特征点定位嘴巴[A];第二十六届中国控制会议论文集[C];2007年

4 ;Loop-closing By Using SIFT Features for Mobile Robots[A];第二十六届中国控制会议论文集[C];2007年

5 周凯;范瑞霞;李位星;;一种基于SIFT的MeanShift-粒子滤波融合跟踪算法[A];第二十九届中国控制会议论文集[C];2010年

6 ;Rapid Target Recognition and Tracking under Large Scale Variation Using Semi-Naive Bayesian[A];第二十九届中国控制会议论文集[C];2010年

7 ;A High-level Image Sequence Fusion Algorithm for Human Detection[A];第二十九届中国控制会议论文集[C];2010年

8 邹丽晖;陈杰;张娟;窦丽华;;一种基于时空域流形的视频序列图像拼接算法[A];第二十九届中国控制会议论文集[C];2010年

9 ;Machine Vision Based Flotation Froth Mobility Analysis[A];第二十九届中国控制会议论文集[C];2010年

10 孙明竹;赵新;程小燕;孙程;卢桂章;;面向复杂作业的微操作机器人关键技术研究[A];第二十九届中国控制会议论文集[C];2010年

中国博士学位论文全文数据库 前10条

1 王玉全;基于全景视觉的移动机器人同时定位与地图创建方法研究[D];哈尔滨工程大学;2010年

2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年

3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年

4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年

5 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年

6 肖洁;视觉注意模型及其在目标感知中的应用研究[D];华中科技大学;2010年

7 朱清波;序列图像三维重建方法研究[D];华中科技大学;2010年

8 田文;多视图图像的快速三维场景重建[D];华中科技大学;2010年

9 涂虬;智能视觉监视中目标检测与跟踪算法研究[D];华中科技大学;2010年

10 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年

中国硕士学位论文全文数据库 前10条

1 宋抗;压缩机活塞圆度误差数字检测系统研究[D];河南理工大学;2010年

2 陈忠翔;基于立体视觉的三维重建方法研究[D];南昌航空大学;2010年

3 雒燕飞;地质灾害应急地理信息数据库设计及其应用[D];山东科技大学;2010年

4 唐红梅;基于辐射与空间信息的遥感图像检索[D];山东科技大学;2010年

5 倪希亮;基于尺度不变特征的多源遥感影像配准[D];山东科技大学;2010年

6 贾伟洁;SAR影像与光学影像配准研究[D];山东科技大学;2010年

7 任天宇;自稳定航拍系统算法与设计[D];长春理工大学;2010年

8 李跃;三维运动估计在织物动态仿真中的应用[D];浙江理工大学;2010年

9 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年

10 王博;全景视觉智能移动机器人固有环境定位[D];哈尔滨工程大学;2010年


  本文关键词:互联网图像搜索中的多模态融合,由笔耕文化传播整理发布。



本文编号:483949

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/483949.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a7f55***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com