基于内容分析与个性化建模的推荐方法研究
发布时间:2021-04-12 00:41
随着互联网的快速发展,大量信息不断涌现,推荐系统正在起着至关重要的作用,而每位用户所关心和感兴趣的内容都不尽相同,所以为每位用户提供个性化的推荐内容,成为推荐系统研究的重要方向。但即便做到千人千面的推荐,仍然会存在信息冗余的问题,因此可以使用文本摘要算法对文章信息进行压缩,去除冗余信息,便于用户阅读。最后,由于每时每刻产生的新内容,新词汇也在不断产生,而且词法分析作为一项基础任务,更是为上层算法与应用提供分析基础,所以识别出新的词汇也尤为关键。同时,识别出的新词可以加入到文本摘要中,摘要内容也可以为基于内容分析的推荐算法提供更简练的文章内容,对推荐系统是有利的。本文主要对新词发现和自动摘要对文章进行内容分析,而后通过融合推荐系统进行个性化推荐的相关工作研究。具体研究内容有以下几方面:1)提出一种基于时序特征的新词发现的方法。该方法在基于候选词的互信息和信息熵的基础上,再对这两个特征在时序上的变化进行评分,最终根据候选词的评分排序,取评分较高的词作为新词词典并加入到词法分析的系统中,为下游的分析工作提供基础,通过实验证明分词效果有了明显提升。2)提出了一种基于神经网络融合多种语义特征的摘...
【文章来源】:河北科技大学河北省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
新词发现流程图
梢允橇礁?字的词,但一个词语如果可以在文章中使用,且被多数人接受的,那么该短语应该也可以灵活应用在各个语句中,即构成短语的邻接熵较高。评估是否构成短语的另一个特征为多个字之间的紧密程度,即多个字之间的互信息比较高。但往往一个候选词可能由多个词构成,例如“中美/经贸”,其中每个词既可以灵活应用到其它语句中,也可以组合到一起组成新的短语,所以每个词或组合短语的邻接熵和互信息都比较高,为了能更精确的评估是否为新词,引入另外两个统计量,左词的右邻接熵和右词的左邻接熵。上述短语的特征示意图如图3-2所示,其中PMI为两个词的互信息,r-lE为左词的右熵,即评估“中美”这个词的右邻接熵,l-rE为右词的左熵,即评估“经贸”这个词的右邻接熵,而lE和rE分别表示组成候选词“中美经贸”后的左邻接熵和右邻接熵。图3-2短语特征计算示意图对候选词的互信息计算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y为候选词的左右字串。P为出现的概率,P(X,Y)是XY共同出现的
20进行一些变量的符号化。本文假设输入的词序为},,,,{321wnwwww=xxxxX,其中n表示文本分词后的词语数量。使用diwRv∈表示输入的词序中第i个词的向量表示,d表示词向量的维度。4.2.2特征权重学习层由于文本具有时序特征,即前后内容是有依赖关系的,因而本章选用RNN中的GRU模型处理文本。同时,由于文章的内容较长,如果只使用词级别的GRU模型,训练序列就会过长,模型难以训练到有效特征,因而本章将使用词级别的GRU和句子级别的GRU,这两种级别GRU共同提取特征,通过词级别GRU的输出作为句子级别GRU的输入串联两种级别的模型,得到最终的文档向量表示。如图4-1所示,本章的句子特征向量和文档特征向量,均由双向GRU生成。图4-1句子特征与文档特征模型其GRU的表达式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分别表示GRU中的两个门控变量,通过σ(sigmoid函数)激活函数,将数据变化到0至1的范围内,从而控制信息流的流动。t)1(h为前一个GRU单元的输出,tx为当前时刻的输入,表示按元素相乘。irW、izW、inW输入特征学习的矩阵,hrW、hzW、hnW为隐层特征学习的矩阵,th为输出的隐层特征。在文本序列中的句子通常需要根据前后的内容来理解句子的整体含义,因此本章节使用词级别的双向GRU句子挖掘隐层语义特征,计算过程如公式(4-5)至公
本文编号:3132267
【文章来源】:河北科技大学河北省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
新词发现流程图
梢允橇礁?字的词,但一个词语如果可以在文章中使用,且被多数人接受的,那么该短语应该也可以灵活应用在各个语句中,即构成短语的邻接熵较高。评估是否构成短语的另一个特征为多个字之间的紧密程度,即多个字之间的互信息比较高。但往往一个候选词可能由多个词构成,例如“中美/经贸”,其中每个词既可以灵活应用到其它语句中,也可以组合到一起组成新的短语,所以每个词或组合短语的邻接熵和互信息都比较高,为了能更精确的评估是否为新词,引入另外两个统计量,左词的右邻接熵和右词的左邻接熵。上述短语的特征示意图如图3-2所示,其中PMI为两个词的互信息,r-lE为左词的右熵,即评估“中美”这个词的右邻接熵,l-rE为右词的左熵,即评估“经贸”这个词的右邻接熵,而lE和rE分别表示组成候选词“中美经贸”后的左邻接熵和右邻接熵。图3-2短语特征计算示意图对候选词的互信息计算公式如(3-1)所示:)()(),(log),(2YPXPYXPYXPMI=(3-1)其中,X和Y为候选词的左右字串。P为出现的概率,P(X,Y)是XY共同出现的
20进行一些变量的符号化。本文假设输入的词序为},,,,{321wnwwww=xxxxX,其中n表示文本分词后的词语数量。使用diwRv∈表示输入的词序中第i个词的向量表示,d表示词向量的维度。4.2.2特征权重学习层由于文本具有时序特征,即前后内容是有依赖关系的,因而本章选用RNN中的GRU模型处理文本。同时,由于文章的内容较长,如果只使用词级别的GRU模型,训练序列就会过长,模型难以训练到有效特征,因而本章将使用词级别的GRU和句子级别的GRU,这两种级别GRU共同提取特征,通过词级别GRU的输出作为句子级别GRU的输入串联两种级别的模型,得到最终的文档向量表示。如图4-1所示,本章的句子特征向量和文档特征向量,均由双向GRU生成。图4-1句子特征与文档特征模型其GRU的表达式如公式(4-1)至公式(4-4)所示:)()1(hrthrirtirtWrb+++=bhWxσ(4-1)hzthziztiztWzb+++=bhWx)1(σ((4-2))(tanh()1(hnthntintintnxWr+++=bhWb(4-3))1()1(+=ttttthznzh(4-4)其中,tr和tz分别表示GRU中的两个门控变量,通过σ(sigmoid函数)激活函数,将数据变化到0至1的范围内,从而控制信息流的流动。t)1(h为前一个GRU单元的输出,tx为当前时刻的输入,表示按元素相乘。irW、izW、inW输入特征学习的矩阵,hrW、hzW、hnW为隐层特征学习的矩阵,th为输出的隐层特征。在文本序列中的句子通常需要根据前后的内容来理解句子的整体含义,因此本章节使用词级别的双向GRU句子挖掘隐层语义特征,计算过程如公式(4-5)至公
本文编号:3132267
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3132267.html