基于卷积神经网络的机器人自动抓取规划研究
发布时间:2021-09-02 20:39
随着大数据时代的到来以及硬件计算力的提升,近几年以卷积神经网络为代表的深度学习技术在计算机视觉等领域取得了巨大突破。由于卷积神经网络可以面向不同任务通过训练从数据中学习得到效果超过人工设计特征的能力,目前在机器人的目标识别,目标检测等领域已有广泛应用。本文针对智能机器人在仓储物流,家庭服务等行业需要能够在复杂的非结构化环境中对物体进行抓取的这一需求,对卷积神经网络在机器人抓取规划中的应用进行了详细研究,提出了两种能在非结构化环境对物体进行抓取规划的抓取检测网络,建立了完整的机器人自动抓取规划系统,并通过实验验证了本文提出的自动抓取规划方法的实际可行性。本文首先建立了完整的机器人自动抓取规划系统框架,并对自动抓取规划系统中的深度相机模型,机器人抓取模型以及基于卷积神经网络的抓取规划模型进行了建模,确定了抓取的表达方法,为后续算法研究提供了理论基础。基于建立好的抓取规划系统框架及模型,本文首先提出了先采样候选抓取再分类的抓取检测网络GDN。该网络创新性地同时以输入图片和抓取角度为输入,使得不同抓取角度的预测互相独立,更符合抓取检测的实际情况,并通过迁移学习利用了Image Net预训练的高...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:100 页
【学位级别】:硕士
【部分图文】:
LeNet网络结构示意图
图 1-2AlexNet 网络结构示意图[2]在 2013 年,Zeiler 等人提出了 ZFNet[4],并获得了 ILSVRC 2013 的冠军,其Top-5 错误率为 11.7%,该网络主要是对 AlexNet 进行了一些超参数上的优化提升了性能,比如第一层卷积层从 AlexNet 步长为 4 的 × 卷积核变为步长为 2 的 × 卷积核,每个卷积层的卷积核数目从 384、384、256 变为 512、1024、512。VGG 网络[5]是牛津大学 VisualGeometryGroup 提出的图像识别 CNN 结构,主要贡献是表明增加网络的深度能够在一定程度上改善网络的性能,VGG-16(13 个卷积层及 3 个全连接层)在 ILSVRC2014 上的 Top-5 错误率为 7.3%,获得了第二名。它将 AlexNet 中使用的宽度较大的 11 和 5 的卷积核替换成为了宽度为 3 的卷积核,原因是两个堆叠起来的 × 卷积层和一个 × 的卷积层具有相同的感受野,三个堆叠起来的 × 卷积层和一个 × 的卷积层具有相同的感受野,既通过多层小卷积核的卷积层替代单层大卷积核的卷积层,这样可以增加非线性变换的次数提高网络的表达能力,且多个小卷积核的参数比一个大卷积核参数少。GoogLeNet[6]是 Google 在 2014 年提出的一种 22 层的 CNN 结构,并获得了ILSVRC 2014 的冠军,Top-5 错误率为 6.7%。GoogLeNet 的主要创新是采用了
PixelGDN-InceptionResnet-2深度特征提取32@conv 9×916@conv 5×58@conv 3×3融合特征提取2@ inception-resnet block8@deconv 3×316@deconv 5×532@deconv 9×936.D 宽度回归3 训练数据集.1 康奈尔抓取数据集康奈尔抓取数据集[34]是近几年抓取姿态检测研究中常用的数据集,其中包0 种不同物体从不同角度拍摄的一共 885 张图片,每张图片对应着一个点云和人工标注的抓取框。整个数据集中一共包含有 5110 个正例抓取框和 2909例抓取框,每个抓取框用方框的四个角点表示,且前两个角点的连线表示二手张开的方向。对于点云文件,本文将其转化为深度图并将坏点置为 0。图示为康奈尔抓取数据集中的一些示例图片。
【参考文献】:
博士论文
[1]面向机器人操作的目标检测与抓取规划研究[D]. 郭迪.清华大学 2016
硕士论文
[1]基于多模态深度学习算法的机器人自主抓取技术研究[D]. 陈盟.哈尔滨工业大学 2017
本文编号:3379696
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:100 页
【学位级别】:硕士
【部分图文】:
LeNet网络结构示意图
图 1-2AlexNet 网络结构示意图[2]在 2013 年,Zeiler 等人提出了 ZFNet[4],并获得了 ILSVRC 2013 的冠军,其Top-5 错误率为 11.7%,该网络主要是对 AlexNet 进行了一些超参数上的优化提升了性能,比如第一层卷积层从 AlexNet 步长为 4 的 × 卷积核变为步长为 2 的 × 卷积核,每个卷积层的卷积核数目从 384、384、256 变为 512、1024、512。VGG 网络[5]是牛津大学 VisualGeometryGroup 提出的图像识别 CNN 结构,主要贡献是表明增加网络的深度能够在一定程度上改善网络的性能,VGG-16(13 个卷积层及 3 个全连接层)在 ILSVRC2014 上的 Top-5 错误率为 7.3%,获得了第二名。它将 AlexNet 中使用的宽度较大的 11 和 5 的卷积核替换成为了宽度为 3 的卷积核,原因是两个堆叠起来的 × 卷积层和一个 × 的卷积层具有相同的感受野,三个堆叠起来的 × 卷积层和一个 × 的卷积层具有相同的感受野,既通过多层小卷积核的卷积层替代单层大卷积核的卷积层,这样可以增加非线性变换的次数提高网络的表达能力,且多个小卷积核的参数比一个大卷积核参数少。GoogLeNet[6]是 Google 在 2014 年提出的一种 22 层的 CNN 结构,并获得了ILSVRC 2014 的冠军,Top-5 错误率为 6.7%。GoogLeNet 的主要创新是采用了
PixelGDN-InceptionResnet-2深度特征提取32@conv 9×916@conv 5×58@conv 3×3融合特征提取2@ inception-resnet block8@deconv 3×316@deconv 5×532@deconv 9×936.D 宽度回归3 训练数据集.1 康奈尔抓取数据集康奈尔抓取数据集[34]是近几年抓取姿态检测研究中常用的数据集,其中包0 种不同物体从不同角度拍摄的一共 885 张图片,每张图片对应着一个点云和人工标注的抓取框。整个数据集中一共包含有 5110 个正例抓取框和 2909例抓取框,每个抓取框用方框的四个角点表示,且前两个角点的连线表示二手张开的方向。对于点云文件,本文将其转化为深度图并将坏点置为 0。图示为康奈尔抓取数据集中的一些示例图片。
【参考文献】:
博士论文
[1]面向机器人操作的目标检测与抓取规划研究[D]. 郭迪.清华大学 2016
硕士论文
[1]基于多模态深度学习算法的机器人自主抓取技术研究[D]. 陈盟.哈尔滨工业大学 2017
本文编号:3379696
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3379696.html