基于神经网络的音乐音频自动合成的研究与实现

发布时间：2020-10-09 18:26

　　音乐与人类生活息息相关,是人们抒发情感、歌唱生活的一种重要的表达方式。而随着人工智能在近年来的飞速进度以及渗入到各个领域的应用,也给计算机音乐带来了不小的发展,其中算法作曲是计算机音乐的一个重要研究分支,旨在利用计算机技术使创作者在作曲的过程中的人为因素降到最低,从而达到自动化作曲的目的。计算作曲通常是以乐谱为研究对象,利用算法通过某种策略控制生成音符序列,进而组成音乐旋律,最终得到完整乐谱。此类的方法存在的问题是,它们需要基于大量的音乐知识规则:只有当乐理规则引入量足够大时,才能使算法变得有效;且当我们想获得直观听觉感受时,只用通过演奏家的演奏或利用MIDI设备来实现。而以音频为研究对象进行人工智能(Artificial Intelligence,AI)作曲,可以使计算机自动生成音乐片段的排列组合,以生成新的音乐音频。基于音频的AI作曲不依赖大量的音乐知识规则,同时又能传递给听众以直观感受。因此,该类算法比传统基于乐谱的作曲方法更具有实用性。本文就将以音乐音频作为研究对象,基于递归神经网络提出一种新的自动合成乐曲算法。以音频为研究对象的音乐自动合成的框架主要包括了音频文件解析,音乐音频特征以及应用于自动作曲的模型。在音频文件解析部分详细介绍了音频文件的结构组成,以及其中与本实验相关的重要参数,为之后顺利进行实验操作打下基础;在音乐音频特征部分,介绍了包括梅尔频率倒谱系数、线性预测编码、过零率、短时能量值等特征;在应用于自动作曲的模型中,着重介绍了人工神经网络中在自动作曲算法领域最活跃的循环神经网络以及长短时记忆模型和门控循环单元模型两种变体,这也是本文所研究的基础模型。其次详细描述了基于神经网络的音乐音频自动合成算法,首先将音乐音频自动合成问题进行了形式化的描述,提出了单位音乐,单位音乐向量,AI生成音乐等概念,将音乐创作表示成为可过程化的问题;然后对提取单位音乐的音频特征及其过程进行了详细的描述;之后详细描述了音乐音频的预测和合成过程,并给出了算法描述;最后,将直接影响到听众直观听觉感受的音频拼接合成部分进行了介绍,提出了先行削弱和增强的方法进行叠加拼接,从而达到平滑拼接的效果。最后本文对算法模型进行了一系列的实验,包括了基于LSTM模型的音乐音频自动合成实验,加入了人机交互的实验以及基于GRU的音乐音频自动合成实验,实验结果标明,基于LSTM的实验所生成的音乐中,得分最高的通常是被大众所熟知的如致爱丽丝的曲目,而在除了熟知度更高的曲目外,模型生成曲目与人工作曲曲目排名分布均匀,表明听众并不能区分人工与智能作曲的区别,达到了本实验的目的。
【学位单位】：吉林大学
【学位级别】：硕士
【学位年份】：2018
【中图分类】：TN912.3;TP183
【文章目录】：
摘要
abstract
第1章绪论
    1.1 研究意义与背景
    1.2 研究现状
    1.3 研究内容
    1.4 本文的组织结构
第2章音乐音频自动合成框架概述
    2.1 音频文件解析
        2.1.1 音频文件参数
        2.1.2 格式化音频数据
    2.2 基于听觉的音频特征
        2.2.1 梅尔频率倒谱系数(MFCC)
        2.2.2 其它音乐特征
    2.3 应用于自动作曲及音乐合成的模型概述
        2.3.1 隐马尔科夫模型(HMM)
        2.3.2 人工神经网络
    2.4 本章小结
第3章基于循环神经网络的音乐音频自动合成算法
    3.1 形式化描述
    3.2 自动作曲模型
        3.2.1 训练数据集组织
        3.2.2 模型训练与预测
    3.3 音乐合成
    3.4 本章小结
第4章实验结果及分析
    4.1 基于LSTM的音乐音频自动合成实验
        4.1.1 测试数据与参数设置
        4.1.2 测试实验
    4.2 基于神经网络的音乐音频自动合成的人机交互实验
    4.3 基于GRU的音乐音频自动合成实验
        4.3.1 基于GRU模型的训练和预测
        4.3.2 测试实验
    4.4 本章小结
第5章总结与展望
    5.1 总结
    5.2 展望
参考文献
作者简介及研究成果
致谢

【参考文献】