基于隐变量模型的监督式哈希算法
本文关键词:基于隐变量模型的监督式哈希算法,由笔耕文化传播整理发布。
【摘要】:随着信息技术时代的来临,人们每天都在互联网上产生着海量的信息。如何对信息进行检索,从而在海量的信息中快速找到对自己有用的信息,就变得十分重要。基于这样的需求,搜索引擎在过去的十年间取得了巨大的成功,同时数据分析与挖掘技术也得到了广泛的关注。相似最近邻搜索是数据分析与挖掘领域的一个基本问题。为了能够在大数据集上高效地进行相似最近邻搜索,并且避免数据维数过高时所产生的一些问题,人们利用哈希算法将高维的特征向量转换为低维的二进制编码。随着近几年机器学习的广泛发展,人们开始尝试提出基于机器学习的哈希算法。 在本文中,我们对现有的哈希算法做了系统的回顾和分析。在学习的过程中,我们发现了其中存在的一些问题和可以改进的地方。基于此,,我们提出了一种全新的基于隐变量模型的监督式哈希算法。实验结果表明,我们的算法在准确率和时间花费上与现有的算法相比都有很大的改善。 我们进一步利用基于哈希算法的k最近邻回归实现了一个针对FML网站的自动评审系统。该系统从网页中提取每个帖子的原始信息,利用自然语言处理工具对这些原始信息进行加工,并从中抽取出可以表示帖子内容的特征向量。基于采集到的训练数据,该系统能够自动地对网站上帖子内容的评分做预测,从而达到自动评审的目的。 此外,在实验的过程中,我们设计搭建了一个通用的平台,可以十分方便地在其上添加各种哈希算法。该平台支持使用多种标准评价方法对算法的性能做对比。我们在这个实验平台上移植了目前已有的大部分算法,并实现了自己提出的全新算法,并通过大量的实验对它们的性能做了系统的比较。
【关键词】:哈希 隐变量 相似最近邻搜索 k最近邻回归 机器学习
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP301.6
【目录】:
- 摘要3-4
- ABSTRACT4-6
- 目录6-10
- 插图索引10-11
- 表格索引11-12
- 第一章 引言12-18
- 1.1 相似最近邻搜索与哈希算法12-13
- 1.2 现有哈希算法回顾13-16
- 1.3 本文的贡献16-18
- 第二章 基于隐变量模型的监督式哈希算法18-35
- 2.1 基本定义18-19
- 2.2 模型建立19-20
- 2.3 学习过程20-22
- 2.3.1 二维化21-22
- 2.3.2 训练数据集外数据点的二进制编码22
- 2.4 分析与改进22-25
- 2.4.1 收敛性22-23
- 2.4.2 复杂度23
- 2.4.3 随机学习23-25
- 2.4.4 超参数标准化25
- 2.5 实验结果25-35
- 2.5.1 数据集25-26
- 2.5.2 对比算法26
- 2.5.3 实验设置26
- 2.5.4 随机学习的影响26-27
- 2.5.5 海明排序27-28
- 2.5.6 k 最近邻分类28-29
- 2.5.7 时间花费29
- 2.5.8 使用全部标记信息的性能对比29-30
- 2.5.9 实例展示30-35
- 第三章 针对 FML 网站的自动评审系统35-46
- 3.1 FML 网站介绍35-36
- 3.2 系统架构36-37
- 3.3 网页爬虫37-38
- 3.4 字典生成器38-39
- 3.4.1 分词器38
- 3.4.2 词干器38
- 3.4.3 词性标注器38-39
- 3.5 特征提取器39-41
- 3.5.1 内容特征39-40
- 3.5.2 时域特征40
- 3.5.3 地域特征40
- 3.5.4 其它特征40-41
- 3.6 哈希编码器与预测器41-42
- 3.7 实验结果42-46
- 3.7.1 预测准确度42-43
- 3.7.2 查询时间43-44
- 3.7.3 存储代价44-46
- 第四章 通用实验平台46-62
- 4.1 总体结构47
- 4.2 数据集列表47-48
- 4.3 哈希算法列表48-49
- 4.4 配置文件49-52
- 4.4.1 数据集配置文件50
- 4.4.2 哈希算法配置文件50-51
- 4.4.3 实验配置文件51-52
- 4.4.4 平台配置文件52
- 4.5 数据预处理52-55
- 4.5.1 数据采样53
- 4.5.2 训练/测试/验证数据集划分53
- 4.5.3 特征标准化53-54
- 4.5.4 近邻矩阵54-55
- 4.6 性能评测55-56
- 4.6.1 海明排序55-56
- 4.6.2 哈希查找56
- 4.7 结果管理56-59
- 4.7.1 缓存57-58
- 4.7.2 图片58
- 4.7.3 日志58-59
- 4.7.4 性能分析表59
- 4.8 其它实用功能59-61
- 4.8.1 重复实验59
- 4.8.2 并行处理59-60
- 4.8.3 内存控制60
- 4.8.4 邮件提醒60-61
- 4.9 平台扩展61-62
- 全文总结62-64
- 参考文献64-70
- 致谢70-71
- 攻读学位期间发表的学术论文目录71-72
- 攻读学位期间参与的项目72-74
【共引文献】
中国期刊全文数据库 前10条
1 韩强;;基于广义Hough变换的手写文档整词定位[J];安徽电子信息职业技术学院学报;2011年05期
2 程刚;郑小华;阳锋;徐祖舰;;三维全景视觉技术在农业机器人中的应用[J];安徽农业科学;2010年34期
3 何海燕;施培蓓;;基于改进AdaBoost算法的行人检测方法[J];安庆师范学院学报(自然科学版);2009年03期
4 吴慧兰;刘国栋;刘炳国;胡涛;浦昭邦;;ICF实验靶定位技术研究[J];半导体光电;2008年05期
5 陈京;袁保宗;刘渭滨;;多视点标定图像的交替迭代度量重建方法[J];北京交通大学学报;2012年02期
6 周峰;刘辉;李超峰;;SIFT算法在图像配准中的应用[J];办公自动化;2009年22期
7 刘彬;叶丽娜;;一种基于SIFT特征的序列图像拼接算法[J];兵工自动化;2009年06期
8 刘焕敏;王华;段慧芬;;一种改进的SIFT双向匹配算法[J];兵工自动化;2009年06期
9 彭勃;周文晖;刘济林;;基于Harris角点检测的立体视觉里程计[J];兵工学报;2007年12期
10 陈冰;赵亦工;李欣;;基于高斯尺度空间的末制导目标跟踪方法[J];兵工学报;2009年05期
中国重要会议论文全文数据库 前10条
1 刘善磊;张亮;;基于相位相关和SURF算法的关键帧实时匹配研究[A];江苏省测绘学会2011年学术年会论文集[C];2011年
2 隋树林;孙立宏;姚文龙;袁健;;融合改进UKF/SIFT信息的自主光学导航方法[A];第二十六届中国控制会议论文集[C];2007年
3 汪力;叶桦;夏良正;;利用特征点定位嘴巴[A];第二十六届中国控制会议论文集[C];2007年
4 ;Loop-closing By Using SIFT Features for Mobile Robots[A];第二十六届中国控制会议论文集[C];2007年
5 周凯;范瑞霞;李位星;;一种基于SIFT的MeanShift-粒子滤波融合跟踪算法[A];第二十九届中国控制会议论文集[C];2010年
6 ;Rapid Target Recognition and Tracking under Large Scale Variation Using Semi-Naive Bayesian[A];第二十九届中国控制会议论文集[C];2010年
7 ;A High-level Image Sequence Fusion Algorithm for Human Detection[A];第二十九届中国控制会议论文集[C];2010年
8 邹丽晖;陈杰;张娟;窦丽华;;一种基于时空域流形的视频序列图像拼接算法[A];第二十九届中国控制会议论文集[C];2010年
9 ;Machine Vision Based Flotation Froth Mobility Analysis[A];第二十九届中国控制会议论文集[C];2010年
10 孙明竹;赵新;程小燕;孙程;卢桂章;;面向复杂作业的微操作机器人关键技术研究[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 王玉全;基于全景视觉的移动机器人同时定位与地图创建方法研究[D];哈尔滨工程大学;2010年
2 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
3 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
4 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
5 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
6 肖洁;视觉注意模型及其在目标感知中的应用研究[D];华中科技大学;2010年
7 朱清波;序列图像三维重建方法研究[D];华中科技大学;2010年
8 田文;多视图图像的快速三维场景重建[D];华中科技大学;2010年
9 涂虬;智能视觉监视中目标检测与跟踪算法研究[D];华中科技大学;2010年
10 章鹏;多尺度特征检测:方法和应用研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 宋抗;压缩机活塞圆度误差数字检测系统研究[D];河南理工大学;2010年
2 陈忠翔;基于立体视觉的三维重建方法研究[D];南昌航空大学;2010年
3 雒燕飞;地质灾害应急地理信息数据库设计及其应用[D];山东科技大学;2010年
4 唐红梅;基于辐射与空间信息的遥感图像检索[D];山东科技大学;2010年
5 倪希亮;基于尺度不变特征的多源遥感影像配准[D];山东科技大学;2010年
6 贾伟洁;SAR影像与光学影像配准研究[D];山东科技大学;2010年
7 任天宇;自稳定航拍系统算法与设计[D];长春理工大学;2010年
8 李跃;三维运动估计在织物动态仿真中的应用[D];浙江理工大学;2010年
9 娄铮铮;sIB算法在图像无监督分类中的应用研究[D];郑州大学;2010年
10 王博;全景视觉智能移动机器人固有环境定位[D];哈尔滨工程大学;2010年
本文关键词:基于隐变量模型的监督式哈希算法,由笔耕文化传播整理发布。
本文编号:310396
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/310396.html