基于深度学习的歌词文本配图
发布时间:2021-02-02 16:27
歌曲是人们用来抒发情感、表达态度的一种重要手段。传统意义上讲,音乐是一门听觉艺术。旋律的变化、音调的起伏让人们在欣赏音乐的同时可以感受到歌曲的情绪变化。随着计算机技术的发展和生活水平的提高,人们已经不单单满足于“聆听”音乐,更想“看见”音乐。因此,音乐可视化工作渐渐走入人们的视野。传统的音乐可视化工作大多基于歌曲的音频特征,利用视觉频谱显示频率和音调的变化可视化音乐的进程。然而这种通过视觉频谱的方式显得过于乏味,若能通过变换的图像表达会更加有趣和直观,对于人们深刻理解音乐也会有很大帮助。具体说来,我们发现歌曲的重要组成形式——歌词之中存在着可以用图像表征的元素,并且歌词蕴含的情感同图像情感也存在着对应的一致性。因此,我们通过歌词作为歌曲的媒介,建立歌曲和图像之间的关联完成了可视化工作。同时,对于数据驱动的深度学习技术而言,一个高质量的数据集是十分必要的。鉴于目前还没有公开的歌词配图相关的数据集,我们制作了一个带有情感标签的歌词-图像数据集,并在上面进行了大量实验,证明我们通过歌词配图以可视化音乐的方法是有效的。因此,我们工作的贡献主要包含以下几个方面:首先,我们通过歌词作为媒介建立了歌...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
传统音乐可视化样例传统意义上,音乐是一种听觉艺术,曲调、节奏、情绪都在音频信息中得
哈尔滨工业大学工程硕士学位论文-4-含了情感判别信息。无论是图像数据还是文本数据,我们分析图像和歌词表达的情感,重要的是对情感信息有一个较为合理、准确、有效的分类,并且能够提取具有判别性的特征。然而,虽然有大量关于情感机制的研究工作,但由于情感的主观特性,目前并没有形成统一的理论,也没有形成定量的评价标准。当前的研究大多利用心理学领域的情感模型进行图像的情感分析,比如Plutchik情感轮模型[19]将情感分为生气、厌恶、恐惧、悲伤、期待、快乐、惊讶和信任等,Ekman[20]情感理论则将情感分为六种基本情感,分别是愤怒、厌恶、害怕、高兴、悲伤和良好。通过对这六种基本情感进行组合可以得到其他情感。根据这些情感空间模型,研究人员建立了许多图像情感分类的数据集,比如Peng等人[21]根据Ekman情感理论建立了EmotionROI数据集,Borth等人[22]根据Plutchik情感轮模型建立了Sentibank数据集等。通过对已有情感模型的观察,以及相关图像情感分类问题的研究[23-25],我们可以将图像情感大体分为积极和消极两大类别。图1-2Thayer情感模型此外,对于音乐的情感分类,现有的音乐情感研究大多从文本关键词模型和音频参数模型两个方面进行。从音频角度来看,shi[26]等人通过对频谱的分析建立了一个分析系统,目的是提取相关的节奏信息,并根据节奏的变换实现对音乐情感的分类任务。而Wang[27]和Cyril等人则是分别利用频谱以及音乐波形等特征,利用支持向量机(SVM)的方法对音乐情感进行分类。从文本关键词角度看,David等人[28]利用歌曲的歌词信息来识别歌曲的情感类型。目前
哈尔滨工业大学工程硕士学位论文-7-最后,根据之前的歌词配图算法的研究,我们利用由歌词检索的图像生成音乐视频。具体来说,对于预先分好的歌词片段,我们利用每一个片段的最佳检索结果作为候选图像,同时利用歌词中的时间信息以及音频文件作为背景音乐,形成音乐视频从而达到音乐可视化目的。1.4本文的组织结构本文通过四章内容讲述课题的研究内容,图1-3对论文的章节安排和逻辑关系进行了展示。图1-3文章总体框架第一章,首先介绍论文工作的研究背景及意义,针对歌词配图涉及到的相关领域的研究现状进行综述。绪论的最后介绍了论文的主要研究内容以及结构安排。第二章,介绍基于深度学习的歌词配图应用涉及的相关理论基础,并着重介绍视觉特征和歌词特征提取的理论知识,最后是第二章的总结。第三章,介绍本文所建立的用于歌词配图的歌词-图像数据集。首先对比了相关工作和已有数据集,说明建立歌词片段-图像数据集的原因;其次,介绍了建立数据集的方法和清洗规则,并且对数据集进行介绍;最后基于数据集提出一种融合图像和歌词特征的歌词配图算法,并利用情感作为监督信息,通
【参考文献】:
期刊论文
[1]基于多层特征描述及关系学习的智能图像情感识别[J]. 杨文武,普园媛,赵征鹏,徐丹,钱文华,阿曼. 陕西师范大学学报(自然科学版). 2019(05)
[2]基于视觉的情感分析研究综述[J]. 李祖贺,樊养余. 计算机应用研究. 2015(12)
博士论文
[1]基于深度学习的图像情感分析研究[D]. 宋凯凯.中国科学技术大学 2018
本文编号:3015008
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
传统音乐可视化样例传统意义上,音乐是一种听觉艺术,曲调、节奏、情绪都在音频信息中得
哈尔滨工业大学工程硕士学位论文-4-含了情感判别信息。无论是图像数据还是文本数据,我们分析图像和歌词表达的情感,重要的是对情感信息有一个较为合理、准确、有效的分类,并且能够提取具有判别性的特征。然而,虽然有大量关于情感机制的研究工作,但由于情感的主观特性,目前并没有形成统一的理论,也没有形成定量的评价标准。当前的研究大多利用心理学领域的情感模型进行图像的情感分析,比如Plutchik情感轮模型[19]将情感分为生气、厌恶、恐惧、悲伤、期待、快乐、惊讶和信任等,Ekman[20]情感理论则将情感分为六种基本情感,分别是愤怒、厌恶、害怕、高兴、悲伤和良好。通过对这六种基本情感进行组合可以得到其他情感。根据这些情感空间模型,研究人员建立了许多图像情感分类的数据集,比如Peng等人[21]根据Ekman情感理论建立了EmotionROI数据集,Borth等人[22]根据Plutchik情感轮模型建立了Sentibank数据集等。通过对已有情感模型的观察,以及相关图像情感分类问题的研究[23-25],我们可以将图像情感大体分为积极和消极两大类别。图1-2Thayer情感模型此外,对于音乐的情感分类,现有的音乐情感研究大多从文本关键词模型和音频参数模型两个方面进行。从音频角度来看,shi[26]等人通过对频谱的分析建立了一个分析系统,目的是提取相关的节奏信息,并根据节奏的变换实现对音乐情感的分类任务。而Wang[27]和Cyril等人则是分别利用频谱以及音乐波形等特征,利用支持向量机(SVM)的方法对音乐情感进行分类。从文本关键词角度看,David等人[28]利用歌曲的歌词信息来识别歌曲的情感类型。目前
哈尔滨工业大学工程硕士学位论文-7-最后,根据之前的歌词配图算法的研究,我们利用由歌词检索的图像生成音乐视频。具体来说,对于预先分好的歌词片段,我们利用每一个片段的最佳检索结果作为候选图像,同时利用歌词中的时间信息以及音频文件作为背景音乐,形成音乐视频从而达到音乐可视化目的。1.4本文的组织结构本文通过四章内容讲述课题的研究内容,图1-3对论文的章节安排和逻辑关系进行了展示。图1-3文章总体框架第一章,首先介绍论文工作的研究背景及意义,针对歌词配图涉及到的相关领域的研究现状进行综述。绪论的最后介绍了论文的主要研究内容以及结构安排。第二章,介绍基于深度学习的歌词配图应用涉及的相关理论基础,并着重介绍视觉特征和歌词特征提取的理论知识,最后是第二章的总结。第三章,介绍本文所建立的用于歌词配图的歌词-图像数据集。首先对比了相关工作和已有数据集,说明建立歌词片段-图像数据集的原因;其次,介绍了建立数据集的方法和清洗规则,并且对数据集进行介绍;最后基于数据集提出一种融合图像和歌词特征的歌词配图算法,并利用情感作为监督信息,通
【参考文献】:
期刊论文
[1]基于多层特征描述及关系学习的智能图像情感识别[J]. 杨文武,普园媛,赵征鹏,徐丹,钱文华,阿曼. 陕西师范大学学报(自然科学版). 2019(05)
[2]基于视觉的情感分析研究综述[J]. 李祖贺,樊养余. 计算机应用研究. 2015(12)
博士论文
[1]基于深度学习的图像情感分析研究[D]. 宋凯凯.中国科学技术大学 2018
本文编号:3015008
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3015008.html