基于NLP的数字语音数据版权追溯算法研究
发布时间:2021-11-23 07:35
随着移动互联网的普及和高速发展,媒体服务模式的不断创新,广大用户在方便快捷的获取各式各样优质内容的同时,也带来了严重的盗版问题。为切实解决移动互联网时代的盗版问题,鼓励优质内容创作者,有效打击盗版产业各个环节,保护产业链各方的权益,政府、学术界、产业圈等都做了大量的努力。国家版权局联合国家互联网信息办公室、工业和信息化部、公安部于2017年实施“剑网行动”,多家行业机构建立了网络版权监测平台。学术界还提出了数字水印、区块链存证、DCI、DRM等技术,在深度学习的基础上实现了互联网盗版的搜索和追踪,有效净化了网络空间,有效保护了知识产权。数字版权保护的理想目标是彻底杜绝盗版,但由于技术的限制,音频内容的版权侵权并未得到有效保护。主要原因是取证困难、人工成本高。为了解决以上问题,本文提出了基于NLP的数字语音数据版权追溯原型系统。该系统包括数据采集模块、语音识别模块、数据预处理模块、语义相似度计算模块、结果区块链存证模块。在语义相似度计算模块中,本文还提出了一种基于CNN和Bi-LSTM的短文本语义相似度计算模型。该模型分为编码器层和交互层。编码器通过LSTM+CNN生成句子向量。交互层将...
【文章来源】:北京印刷学院北京市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图2-1双层Bi-LSTM语言模型
北京印刷学院硕士学位论文相关技术和理论基础7è图2-2Text-CNN语言模型2.3Bi-LSTM+Attention双向长短期记忆(Bi-LSTM):向回归神经网络(RNN)实际上是把两个独立的RNN放在一起。这种结构允许网络在每个时间步骤中同时拥有关于序列的前向和后向信息。使用双向网络将以两种方式输入,一种是从过去到未来,一种是从未来到过去,这种方式与单向运行的不同之处在于,在向后运行的LSTM中,您可以保存来自未来的信息,并将两种隐藏状态结合起来,您可以在任何时间点保存来自过去和未来的信息。因此,在语义理解等自然语言处理任务中双向长短期记忆网络有更好的表现。注意力机制(Attentionmechanism)源于人类对视觉图像信息的研究,主要为了合理运用有限资源来表征整个事物本身。其基本思路是:每次模型预测一个输出单词时,它只使用输入中最相关的信息集中的部分,而不是整个句子。换句话说,它只注意一些输入的单词。Attention机制在自然语言处理中的应用可以被认为是一种自动加权的方式,它可以根据每一时刻输出信息的不同重要程度,通过加权的形式对不同输出进行联系,有效提升网络对序列特征信息的学习效率[31]。Attention应用到Bi-LSTM[32]如图2-3图2-3Bi-LSTM+Attention模型图3中,w1,w2…wL为文本数据单个字的向量,然后依次输入到Bi-LSTM,hi为输出,同时引入Attention机制,计算每一时刻输出与特征向量的匹配得分占总体的百分率(注意力概率分布)
北京印刷学院硕士学位论文相关技术和理论基础7è图2-2Text-CNN语言模型2.3Bi-LSTM+Attention双向长短期记忆(Bi-LSTM):向回归神经网络(RNN)实际上是把两个独立的RNN放在一起。这种结构允许网络在每个时间步骤中同时拥有关于序列的前向和后向信息。使用双向网络将以两种方式输入,一种是从过去到未来,一种是从未来到过去,这种方式与单向运行的不同之处在于,在向后运行的LSTM中,您可以保存来自未来的信息,并将两种隐藏状态结合起来,您可以在任何时间点保存来自过去和未来的信息。因此,在语义理解等自然语言处理任务中双向长短期记忆网络有更好的表现。注意力机制(Attentionmechanism)源于人类对视觉图像信息的研究,主要为了合理运用有限资源来表征整个事物本身。其基本思路是:每次模型预测一个输出单词时,它只使用输入中最相关的信息集中的部分,而不是整个句子。换句话说,它只注意一些输入的单词。Attention机制在自然语言处理中的应用可以被认为是一种自动加权的方式,它可以根据每一时刻输出信息的不同重要程度,通过加权的形式对不同输出进行联系,有效提升网络对序列特征信息的学习效率[31]。Attention应用到Bi-LSTM[32]如图2-3图2-3Bi-LSTM+Attention模型图3中,w1,w2…wL为文本数据单个字的向量,然后依次输入到Bi-LSTM,hi为输出,同时引入Attention机制,计算每一时刻输出与特征向量的匹配得分占总体的百分率(注意力概率分布)
本文编号:3513418
【文章来源】:北京印刷学院北京市
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
图2-1双层Bi-LSTM语言模型
北京印刷学院硕士学位论文相关技术和理论基础7è图2-2Text-CNN语言模型2.3Bi-LSTM+Attention双向长短期记忆(Bi-LSTM):向回归神经网络(RNN)实际上是把两个独立的RNN放在一起。这种结构允许网络在每个时间步骤中同时拥有关于序列的前向和后向信息。使用双向网络将以两种方式输入,一种是从过去到未来,一种是从未来到过去,这种方式与单向运行的不同之处在于,在向后运行的LSTM中,您可以保存来自未来的信息,并将两种隐藏状态结合起来,您可以在任何时间点保存来自过去和未来的信息。因此,在语义理解等自然语言处理任务中双向长短期记忆网络有更好的表现。注意力机制(Attentionmechanism)源于人类对视觉图像信息的研究,主要为了合理运用有限资源来表征整个事物本身。其基本思路是:每次模型预测一个输出单词时,它只使用输入中最相关的信息集中的部分,而不是整个句子。换句话说,它只注意一些输入的单词。Attention机制在自然语言处理中的应用可以被认为是一种自动加权的方式,它可以根据每一时刻输出信息的不同重要程度,通过加权的形式对不同输出进行联系,有效提升网络对序列特征信息的学习效率[31]。Attention应用到Bi-LSTM[32]如图2-3图2-3Bi-LSTM+Attention模型图3中,w1,w2…wL为文本数据单个字的向量,然后依次输入到Bi-LSTM,hi为输出,同时引入Attention机制,计算每一时刻输出与特征向量的匹配得分占总体的百分率(注意力概率分布)
北京印刷学院硕士学位论文相关技术和理论基础7è图2-2Text-CNN语言模型2.3Bi-LSTM+Attention双向长短期记忆(Bi-LSTM):向回归神经网络(RNN)实际上是把两个独立的RNN放在一起。这种结构允许网络在每个时间步骤中同时拥有关于序列的前向和后向信息。使用双向网络将以两种方式输入,一种是从过去到未来,一种是从未来到过去,这种方式与单向运行的不同之处在于,在向后运行的LSTM中,您可以保存来自未来的信息,并将两种隐藏状态结合起来,您可以在任何时间点保存来自过去和未来的信息。因此,在语义理解等自然语言处理任务中双向长短期记忆网络有更好的表现。注意力机制(Attentionmechanism)源于人类对视觉图像信息的研究,主要为了合理运用有限资源来表征整个事物本身。其基本思路是:每次模型预测一个输出单词时,它只使用输入中最相关的信息集中的部分,而不是整个句子。换句话说,它只注意一些输入的单词。Attention机制在自然语言处理中的应用可以被认为是一种自动加权的方式,它可以根据每一时刻输出信息的不同重要程度,通过加权的形式对不同输出进行联系,有效提升网络对序列特征信息的学习效率[31]。Attention应用到Bi-LSTM[32]如图2-3图2-3Bi-LSTM+Attention模型图3中,w1,w2…wL为文本数据单个字的向量,然后依次输入到Bi-LSTM,hi为输出,同时引入Attention机制,计算每一时刻输出与特征向量的匹配得分占总体的百分率(注意力概率分布)
本文编号:3513418
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3513418.html