在线评论的个性化选择算法研究
发布时间:2021-01-09 00:33
大量网络平台为了吸引更多的用户和提高网站阅读量而进行有目的性的选择评论,然而筛选出来的评论集合信息冗余问题非常严重。因此,为了满足网站和用户的双重需求,选择出与用户偏好最为相似的个性化评论显得尤为重要。最近研究表明,用户在网站浏览和体验中,更关注与自身更相关的评论。针对上述问题,本文提出一种基于挖掘用户个人偏好的个性化选择算法,并将该算法应用于餐馆评论中。本文完成了以下主要工作:(1)通过对文本数据的处理,将利用深度学习中基于注意力机制的关键词提取方法和层次聚类算法进行组合,对用户的历史评论内容进行挖掘,以考虑用户自身的关注度表示用户的偏好。通过该组合进行实验,以向量形式表示用户偏好。(2)定义评论选择问题,除了考虑评论选择的覆盖率(即选择出的评论在评论集合中的占比),还引入了评论的相似性和用户个性化两个选择标准。在此基础上,本文设计了个性化选择算法并解决个性化评论选择的问题,设置覆盖率、相似性和用户个性化为评论选择的标准,然后进行个性化选择,对不同的用户选择出一组K条评论。为了评估算法的优化性能,使用调和平均值对相似性和用户个性化进行评估。(3)将本文的算法应用于在线餐馆评论进行个性...
【文章来源】:西安石油大学陕西省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
研究方法流程图
西安石油大学硕士学位论文16图3-1用户偏好模型的创建流程图3.2文本数据的预处理文本处理的前面都要进行文本预处理,本文的文本预处理包括以下几个操作:(1)除去数据中非文本部分:获取到的英文文本中会有一些html标签或者是一些非英文的符号等,需要去掉。(2)拼写检查更正。(3)词干提取和词形还原:表示所有的词汇为词干形式。(4)分句:对于每个分句要进行关键词提取,因此对于长文本数据,要进行分句。(5)转化为小写:英文单词有大小写区分,因此将所有的词都转换为小写会更好处理。(6)删除停用词组成的句子:删除一些停用词组成的某一个短分句,例如一些感叹词、停顿语气词等等。(7)引入停用词:文本数据中,如“the”,“a”等这些无效词汇及一些词组中的多余标点符号,在文本分析和后面的关键词提取时不需要,因此需要去掉这些。完成了上面的操作,就完成了文本预处理的基本步骤,得到没有噪声的文本数据,然后进行下面的关键词提龋3.3关键词提取关键词提取是分析用户偏好的至关重要的步骤之一,现有的研究中多数倾向于应用
第三章用户偏好模型的创建17主题模型的变体。然而,主题模型通常不会产生高度相关的关键词。为了提取相关性高且精炼的关键系,通过神经网络的词嵌入来获取关键词的分布。因此,本文利用基于深度学习的注意力机制的关键词提取(Attention-basedAspectExtraction,ABAE)来提取关键词。ABAE模型的最终目标是通过引入注意力机制的方法从文档中提取一组关键词,且这组关键词可以通过查看它上下文的单词来解释。词汇表中每个词都表示为一个维的向量,所有的词的向量化矩阵是,表示词的数目。关键词是从语料库的单词中获取的,因此关键词的向量维数和单词的向量的维数是同一个空间,关键词的向量化矩阵是,表示定义的关键词的数目,。关键词向量化是在语料库的词汇中与关键词近似的词,而关键词是通过注意力机制过滤出来的。ABAE有多个输入,且每个输入都对应句子中的每个词的索引列,进行以下两步的操作,如图3-2所示。主要步骤:第一步,通过注意力机制降低非关键词的权重,然后基于加权后的单词向量构建句子向量;第二步,用语料库中关键词向量化矩阵的线性组合,进行降维并重新构建句子向量化。ABAE重新构建,使用最少的变化尽可能保存更多个关键词中的信息。图3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力机制深度学习的研究在自然语言处理中,引入注意力机制(AttentionMechanism)就类
本文编号:2965615
【文章来源】:西安石油大学陕西省
【文章页数】:57 页
【学位级别】:硕士
【部分图文】:
研究方法流程图
西安石油大学硕士学位论文16图3-1用户偏好模型的创建流程图3.2文本数据的预处理文本处理的前面都要进行文本预处理,本文的文本预处理包括以下几个操作:(1)除去数据中非文本部分:获取到的英文文本中会有一些html标签或者是一些非英文的符号等,需要去掉。(2)拼写检查更正。(3)词干提取和词形还原:表示所有的词汇为词干形式。(4)分句:对于每个分句要进行关键词提取,因此对于长文本数据,要进行分句。(5)转化为小写:英文单词有大小写区分,因此将所有的词都转换为小写会更好处理。(6)删除停用词组成的句子:删除一些停用词组成的某一个短分句,例如一些感叹词、停顿语气词等等。(7)引入停用词:文本数据中,如“the”,“a”等这些无效词汇及一些词组中的多余标点符号,在文本分析和后面的关键词提取时不需要,因此需要去掉这些。完成了上面的操作,就完成了文本预处理的基本步骤,得到没有噪声的文本数据,然后进行下面的关键词提龋3.3关键词提取关键词提取是分析用户偏好的至关重要的步骤之一,现有的研究中多数倾向于应用
第三章用户偏好模型的创建17主题模型的变体。然而,主题模型通常不会产生高度相关的关键词。为了提取相关性高且精炼的关键系,通过神经网络的词嵌入来获取关键词的分布。因此,本文利用基于深度学习的注意力机制的关键词提取(Attention-basedAspectExtraction,ABAE)来提取关键词。ABAE模型的最终目标是通过引入注意力机制的方法从文档中提取一组关键词,且这组关键词可以通过查看它上下文的单词来解释。词汇表中每个词都表示为一个维的向量,所有的词的向量化矩阵是,表示词的数目。关键词是从语料库的单词中获取的,因此关键词的向量维数和单词的向量的维数是同一个空间,关键词的向量化矩阵是,表示定义的关键词的数目,。关键词向量化是在语料库的词汇中与关键词近似的词,而关键词是通过注意力机制过滤出来的。ABAE有多个输入,且每个输入都对应句子中的每个词的索引列,进行以下两步的操作,如图3-2所示。主要步骤:第一步,通过注意力机制降低非关键词的权重,然后基于加权后的单词向量构建句子向量;第二步,用语料库中关键词向量化矩阵的线性组合,进行降维并重新构建句子向量化。ABAE重新构建,使用最少的变化尽可能保存更多个关键词中的信息。图3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力机制深度学习的研究在自然语言处理中,引入注意力机制(AttentionMechanism)就类
本文编号:2965615
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2965615.html