基于Simhash和CNN的相似新闻推荐
发布时间:2021-07-10 11:01
在这个信息化和网络数字化即将到来的信息时代,互联网上的数据和信息每天都在海量地增长,各种信息的过载使得用户无法快速、准确地获取自己最关心的内容,增加了用户获取信息时的时间和精力成本。于是在基于内容的新闻推荐领域,相似文本检测有着重要的应用。在传统的方法中,一般基于文本关键词的统计信息进行推荐,而忽略了自然语言的语义信息相似性。随着几年来机器学习与深度学习的兴起,自然语言处理技术的发展,尤其是词向量技术在文本的语义信息表示上的突破,使得文本相似度的检测不再局限于统计理论。然而,在海量文本的相似度检测中,深度学习提升了结果的准确性,却也失去了传统方法速度与需要的计算资源少的优势。因此,为了在海量新闻的相似推荐中,保证提高准确性的同时,减少在时间与计算资源上的消耗,本文研究出将Simhash与卷积神经网络算法相结合的相似新闻推荐算法。主要思想是首先应用Simhash算法进行相似文本的初步选择,之后再应用卷积神经网络(CNN:Convolution Neural Network)算法在初选的文本中进行准确度更高的相似文本推荐。主要的研究工作由三部分组成。(1)在传统的Simhash方法的基础上...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
CBOW模型网络结构图
电子科技大学硕士学位论文10根据以下公式(2-4),我们可以通过微分计算出任一背景词向量(=1,…,2)的梯度,如公式(2-5):log(∣)=log(∑exp()∈)(2-4)log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈(2-5)其他词向量的梯度同理可得。在实际应用中,一般使用CBOW的背景词向量作为一个词的词向量表示。(2)Skip-GramSkip-Gram即跳字模型的网络结构与CBOW类似,如图2-2所示。其核心思想为根据当前中心词来预测中心词的上下文的词,与CBOW模型正相反。图2-2Skip-Gram模型网络结构图
电子科技大学硕士学位论文12图2-3DM模型网络结构图在PV-DM模型中,用矩阵D的某一列来代表一个句子,用矩阵W的某一列来表示一个词。模型训练时固定滑动窗口的长度,在一个句子中进行滑动采样来产生训练集,随机选择其中一个词作为预测词,其他为输入词。将句子的句向量和输入词的词向量融合成为一个新的向量,一般是求平均或者累加操作,以此来预测当前词。同一个句子的训练中句向量会进行多次训练,它的作用相当于这一个句子的主题表征。句向量的计算过程需要保持除了句向量矩阵D中的参数外,其他参数不变,使用随机梯度下降法更新句向量直至收敛。4)PV-DBOWPV-DBOW[26](DistributedBagofWordsversionofParagraphVector)模型是另一个用于训练句向量的模型,结构与Word2Vec中的Skip-Gram模型相似,该模型将句向量矩阵作为输入,直接预测从文本中随机选择的一个词。具体步骤是在每一次迭代更新时,基于一个随机窗口随机采集一个单词进行预测分类,即以句向量作为模型的输入去做词的分类。其网络结构如图2-4所示:图2-4DBOW模型网络结构图
【参考文献】:
期刊论文
[1]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[2]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
本文编号:3275794
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
CBOW模型网络结构图
电子科技大学硕士学位论文10根据以下公式(2-4),我们可以通过微分计算出任一背景词向量(=1,…,2)的梯度,如公式(2-5):log(∣)=log(∑exp()∈)(2-4)log(∣)=12(∑exp()∑exp()∈∈)=12(∑(∣))∈(2-5)其他词向量的梯度同理可得。在实际应用中,一般使用CBOW的背景词向量作为一个词的词向量表示。(2)Skip-GramSkip-Gram即跳字模型的网络结构与CBOW类似,如图2-2所示。其核心思想为根据当前中心词来预测中心词的上下文的词,与CBOW模型正相反。图2-2Skip-Gram模型网络结构图
电子科技大学硕士学位论文12图2-3DM模型网络结构图在PV-DM模型中,用矩阵D的某一列来代表一个句子,用矩阵W的某一列来表示一个词。模型训练时固定滑动窗口的长度,在一个句子中进行滑动采样来产生训练集,随机选择其中一个词作为预测词,其他为输入词。将句子的句向量和输入词的词向量融合成为一个新的向量,一般是求平均或者累加操作,以此来预测当前词。同一个句子的训练中句向量会进行多次训练,它的作用相当于这一个句子的主题表征。句向量的计算过程需要保持除了句向量矩阵D中的参数外,其他参数不变,使用随机梯度下降法更新句向量直至收敛。4)PV-DBOWPV-DBOW[26](DistributedBagofWordsversionofParagraphVector)模型是另一个用于训练句向量的模型,结构与Word2Vec中的Skip-Gram模型相似,该模型将句向量矩阵作为输入,直接预测从文本中随机选择的一个词。具体步骤是在每一次迭代更新时,基于一个随机窗口随机采集一个单词进行预测分类,即以句向量作为模型的输入去做词的分类。其网络结构如图2-4所示:图2-4DBOW模型网络结构图
【参考文献】:
期刊论文
[1]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[2]一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 黄承慧,印鉴,侯昉. 计算机学报. 2011(05)
本文编号:3275794
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3275794.html
最近更新
教材专著