百度智能云视频AI技术助力媒体行业产业升级
发布时间:2021-06-10 23:23
<正>随着技术的不断进步,人工智能正加速改变各行各业。从电子游戏到电视电影、综艺节目等,人工智能与流媒体领域的融合越来越深入,在提高效率和促进行业升级发展方面发挥着至关重要的作用。本文将以百度智能云视频AI技术为例,阐述人工智能技术是如何助力媒体行业产业升级的。
【文章来源】:人工智能. 2020,(02)
【文章页数】:10 页
【部分图文】:
媒体内容分析MCA的操作台演示界面
首先是偏预处理任务的基础特征层,用于进行图像、音频等多模特征的处理,并且在前期对视频的冗余数据,以及编码和物体运动造成的模糊和运动伪影进行去除。从底层提取高质量的图片数据,从而提升上层图像标签的准确率。中层的结构化算子层,适用于通用任务,算子组件化功能独立,可单独服务化部署也可组合支持业务的扩展。凭借百度在语音识别、OCR、人脸、NLP、知识图谱等方向的算法和数据积累,以及在视频场景下的需求理解,为视频提供通用的高质量算法能力以及定制化的视频AI技术,给通用视频提供多层次多维度的结构化分析结果。
相似图检索主要的操作是比较两幅图像之间的相似度(例如pHash之间的汉明距离等),相似度低于某个阈值则认为两张图是相似的。为了提升检索性能,通常初始化阶段将数据集分成多个bucket,每一个bucket会存储距离处于一定范围的样本,且任意两个bucket之间是不相交的。根据bucket之间的相关性,整个数据库可以组成一个树状结构,通过树节点的路径选择加快检索效率,类似于KD-Tree等方法。构建bucket的过程有多种方法,常使用的是聚类算法,如K-Means、DBSCAN、Hierarchical Clustering等,这里需要根据算法特点和实际任务进行选择。图像去重也可以使用相同的办法。使用大规模数据例如ImageNet预训练的模型具有很强的语义表达性以及特征区分性,提取图像的特征后使用无监督聚类算法将特征进行聚类,结合清晰度、美观度等模型辅助得到图像质量的分数,结合聚类簇中心输出最优图像。对于大规模视频数据集来说,可以先使用无监督的方式进行粗切,确定粗切的组数,在每组中进行更加精细的去重操作,如图4所示。
本文编号:3223311
【文章来源】:人工智能. 2020,(02)
【文章页数】:10 页
【部分图文】:
媒体内容分析MCA的操作台演示界面
首先是偏预处理任务的基础特征层,用于进行图像、音频等多模特征的处理,并且在前期对视频的冗余数据,以及编码和物体运动造成的模糊和运动伪影进行去除。从底层提取高质量的图片数据,从而提升上层图像标签的准确率。中层的结构化算子层,适用于通用任务,算子组件化功能独立,可单独服务化部署也可组合支持业务的扩展。凭借百度在语音识别、OCR、人脸、NLP、知识图谱等方向的算法和数据积累,以及在视频场景下的需求理解,为视频提供通用的高质量算法能力以及定制化的视频AI技术,给通用视频提供多层次多维度的结构化分析结果。
相似图检索主要的操作是比较两幅图像之间的相似度(例如pHash之间的汉明距离等),相似度低于某个阈值则认为两张图是相似的。为了提升检索性能,通常初始化阶段将数据集分成多个bucket,每一个bucket会存储距离处于一定范围的样本,且任意两个bucket之间是不相交的。根据bucket之间的相关性,整个数据库可以组成一个树状结构,通过树节点的路径选择加快检索效率,类似于KD-Tree等方法。构建bucket的过程有多种方法,常使用的是聚类算法,如K-Means、DBSCAN、Hierarchical Clustering等,这里需要根据算法特点和实际任务进行选择。图像去重也可以使用相同的办法。使用大规模数据例如ImageNet预训练的模型具有很强的语义表达性以及特征区分性,提取图像的特征后使用无监督聚类算法将特征进行聚类,结合清晰度、美观度等模型辅助得到图像质量的分数,结合聚类簇中心输出最优图像。对于大规模视频数据集来说,可以先使用无监督的方式进行粗切,确定粗切的组数,在每组中进行更加精细的去重操作,如图4所示。
本文编号:3223311
本文链接:https://www.wllwen.com/jingjilunwen/whjj/3223311.html