感官语义表征与情感分析研究
发布时间:2021-08-24 23:33
近年来,随着认知科学与人工智能的发展,跨领域融合的情感分析研究受到了越来越多的关注。情感表达一直以来都是人类沟通中重要的一环,如何帮助计算机更好地理解人类情感,是也人工智能发展中重要的组成部分。当前主流的NLP(Natural Language Processing)情感分析手段是借助于文本中带有主观性情感色彩的特征词向量对文本进行分析、归纳和推理。而本论文则提出了一种创新的分析手段——利用文本的感官语义表征来进行情感分析。认知科学与前沿心理学的相关研究指出,人类大脑皮层对感官信息进行处理的过程中会引起人们心理情感的变化,也就是说感官感受能够影响人们的情感。因此,本研究工作利用语言中的感官信息来提升文本的情感分析效果。本文首先借助了语言学中的声音符号词(Sound Symbolic Words,SSW),从词汇的音素中提取出蕴含情感倾向的感官信息。并通过验证融合感官特征的文本表征对情感分析的促进作用,得到这样一个结论:除视觉与听觉外,人工智能还可以从更多的感官渠道获取不同维度的信息,来帮助自身的认知发展。总观全文,本论文工作的重心和创新点体现在以下三个方面:第一、建立日语词汇的感官信息...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:97 页
【学位级别】:硕士
【部分图文】:
(1)棱角图案(2)无棱角图案
第二章相关理论及技术元音中的/o:/,/o/,/a:/等常给人以大,胖,重,浓厚的感受,如图2-2所示。因此该调查研究同时也发现,冰淇淋品牌Rich’n比冰淇淋品牌Lite’nTart更富含奶油的暗示,对于单个音素的改变或许不会影响词义,但却能影响消费者的感知。凝声图2-2前元音与后元音的音素区别语在日语的交流中应用广泛,这些拟声词中包含的音素特征可能在某种程度上表征了其触觉的类别,而在多模态感官信息整合的神经机制下,听觉与触觉间的相互影响很大[61]。例如,日语中的“basa-basa”和“pasa-pasa”仅在一种因素上有所不同:/b/或/p/,却可以在感官认知和情感评估中传达出关键的差异信息,使得它们最终表达不同的语义或情感。这种能够引起人们大脑中相关感官联想的特征音素,为我们捕获词汇中蕴含的感官信息搭起了一座桥梁,利用这些词汇中特征音素我们似乎得以窥探感官信息与情感变化间的关联性。因此,本文在接下来的工作中提出了一个多维感官信息预测系统,它可以基于输入单词的音素特征,完成词汇在多个维度的感官上的预测打分。本工作从日语出发,探寻语言中传达的感官信息对情感倾向的影响。2.2文本表征文本表征是自然语言处理的核心步骤,对于一篇文本数据,能否将其翻译成有效的机器语言,决定了计算机能否发挥出强大拟合计算能力来解析和捕捉文本语义。早期的自然语言表征主要采取离散表示,如One-hot编码。近年来,随着深度学习的不断发展,许多基于神经网络的词向量训练技术可以在海量语料基础上,将符号化的句词嵌入到低维稠密的空间中,提取出文本的特征,这种词向量训练的方法在解析句法与分析语义等方面都显示出强的效果和潜力。词向量的表征方式主要要有四类,第一类是基于One-hot、TF-IDF等的词袋模型,第二类是LSA(SVD)
第二章相关理论及技术图2-3One-hot编码示例(LatentDirichletAllocation,LDA)[66]、Word2vec[67,68]方法以及研究目标词语上下文关系的共现矩阵等等。分布式表示是将原本one-hot编码得到的高维词向量映射到一个更低维度的连续向量中,将语义信息嵌入到固定特征长度(n维)的低维词向量中。从空间上来讲,就是将每个单词嵌入到n维向量空间中的一个点,因此这种方法又可被抽象地理解为词嵌入(wordembedding)[67],其空间映射示意图如图2-4所示。一般来图2-4词嵌入空间映射示意图说,通过统计矩阵或神经网络的方式都可以得到低维的分布式表示,由这类方法得到的低维向量一般称为词向量、词嵌入或分布式词向量。分布式表示一般有两种方法:基于统计矩阵和基于神经网络模型。早期的词向量获取主要是通过统计学的方法,包括构建共现矩阵、奇异值分解(SVD)等,比较具有代表性的就是GloVe模型[69]。后来,Hinton在1986年[70]提出了基于神经网络的分布式表示方法来获得词向量,其原理就是通过模型对上下文关系的学13
本文编号:3360935
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:97 页
【学位级别】:硕士
【部分图文】:
(1)棱角图案(2)无棱角图案
第二章相关理论及技术元音中的/o:/,/o/,/a:/等常给人以大,胖,重,浓厚的感受,如图2-2所示。因此该调查研究同时也发现,冰淇淋品牌Rich’n比冰淇淋品牌Lite’nTart更富含奶油的暗示,对于单个音素的改变或许不会影响词义,但却能影响消费者的感知。凝声图2-2前元音与后元音的音素区别语在日语的交流中应用广泛,这些拟声词中包含的音素特征可能在某种程度上表征了其触觉的类别,而在多模态感官信息整合的神经机制下,听觉与触觉间的相互影响很大[61]。例如,日语中的“basa-basa”和“pasa-pasa”仅在一种因素上有所不同:/b/或/p/,却可以在感官认知和情感评估中传达出关键的差异信息,使得它们最终表达不同的语义或情感。这种能够引起人们大脑中相关感官联想的特征音素,为我们捕获词汇中蕴含的感官信息搭起了一座桥梁,利用这些词汇中特征音素我们似乎得以窥探感官信息与情感变化间的关联性。因此,本文在接下来的工作中提出了一个多维感官信息预测系统,它可以基于输入单词的音素特征,完成词汇在多个维度的感官上的预测打分。本工作从日语出发,探寻语言中传达的感官信息对情感倾向的影响。2.2文本表征文本表征是自然语言处理的核心步骤,对于一篇文本数据,能否将其翻译成有效的机器语言,决定了计算机能否发挥出强大拟合计算能力来解析和捕捉文本语义。早期的自然语言表征主要采取离散表示,如One-hot编码。近年来,随着深度学习的不断发展,许多基于神经网络的词向量训练技术可以在海量语料基础上,将符号化的句词嵌入到低维稠密的空间中,提取出文本的特征,这种词向量训练的方法在解析句法与分析语义等方面都显示出强的效果和潜力。词向量的表征方式主要要有四类,第一类是基于One-hot、TF-IDF等的词袋模型,第二类是LSA(SVD)
第二章相关理论及技术图2-3One-hot编码示例(LatentDirichletAllocation,LDA)[66]、Word2vec[67,68]方法以及研究目标词语上下文关系的共现矩阵等等。分布式表示是将原本one-hot编码得到的高维词向量映射到一个更低维度的连续向量中,将语义信息嵌入到固定特征长度(n维)的低维词向量中。从空间上来讲,就是将每个单词嵌入到n维向量空间中的一个点,因此这种方法又可被抽象地理解为词嵌入(wordembedding)[67],其空间映射示意图如图2-4所示。一般来图2-4词嵌入空间映射示意图说,通过统计矩阵或神经网络的方式都可以得到低维的分布式表示,由这类方法得到的低维向量一般称为词向量、词嵌入或分布式词向量。分布式表示一般有两种方法:基于统计矩阵和基于神经网络模型。早期的词向量获取主要是通过统计学的方法,包括构建共现矩阵、奇异值分解(SVD)等,比较具有代表性的就是GloVe模型[69]。后来,Hinton在1986年[70]提出了基于神经网络的分布式表示方法来获得词向量,其原理就是通过模型对上下文关系的学13
本文编号:3360935
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3360935.html
最近更新
教材专著