基于事件-时间关联模型的新闻话题检测与动态演化跟踪
第一章 绪论
在研究荣华饼家官网的数据挖掘项目中,本文作者发现每个产品都有很多评论,每条评论都针对产品的某个特征,如果能对评论分析得出对应的特征,将有助于荣华饼家改善产品。其次,本文作者也观察了不少电商网站,发现电商平台上每天都会有包括购买记录、产品评论等在内的大量信息,其中充分分析评论信息以得出用户对产品的情感倾向,将也会对商家以及其他用户带来一定的参考价值。但是,仅仅知道用户的情感倾向,却无法得知用户是对产品哪一个特征的评论将会导致商家不知如何改进产品、其他用户无法对比选择。因此,基于以上背景,本文选择了评论特征挖掘为研究方向。产品特征又可分为显性产品特征和隐性产品特征,目前显性产品特征研究成果较多,而隐性产品特征的研究还有很大的空间,所以,本文将会着重研究隐性产品特征的提取方法。
1.1 研究背景与意义
随着因特网技术应用的发展,用户通过浏览某个产品的网络评论来借此深入了解产品并帮助他们做出可靠的决定已成为一种趋势。与此同时,商家通过对网络客户的评论进行分析,得到客户的反馈意见,借此来改进产品以获得更大的竞争力。但是,伴随商务平台的迅速发展,尤其是在淘宝这类有着广大客户群体的网站中,产品评论数快速增长,某些热门产品的评论数量动辄就有数十万,这使得获取评论中有效的信息越来越困难,如何通过技术手段准确地获得评论中的有效信息成为了关注热点。因此,以有效获取网络用户评论信息为目标的非结构化数据分析技术——“评论挖掘”吸引了很多学者关注[1]。评论挖掘中的分支特征挖掘是为了能够自动且准确地获取用户对商家产品的某个特征的观点。观察淘宝等网站的用户评论区,可以发现这些网站已经实现了特征挖掘的初步应用,得到诸如“价格优惠”、“质量不错”等评论摘要,使用户可以更加便捷地浏览选购。但是这些应用也还存在一定的不足,仅能对几个最常见的产品特征进行摘要[2]。另外,在评论中,常常会出现某些评论,只表达了意见,并没有指明此意见是针对哪种特征。而提取特征是评论挖掘的基础,全面且准确地提取出特征,评论挖掘之后的分析才更可信。
...........
1.2 国内外评论挖掘研究现状
评论挖掘是近几年学术界的研究热点之一[3],在国外的一些英文评论挖掘领域,研究者已经初步获得了一些研究成果,而国内的评论挖掘领域还处在初步发展阶段。现阶段由于中国的电子商务的发展,迫切需要一个针对中文的评论挖掘技术。但是由于中西国度的文化差异和语言的不同,使得国外的一些研究成果并不适用于中国国内的中文评论挖掘,因而对基于中文的评论挖掘技术的探索是有必要的。国内外对评论挖掘方法的研究大致可以分为三类:(1)产品特征直接提取(2)产品特征与关联对联合提取(3)主题模型的应用。在产品特征提取的研究上,可以分为对显性产品特征和隐性产品特征的研究。最初的显性产品特征提取方法是人工列举出所有的产品特征,从而建立对应产品的特征词库,Kobayashi、lnui 和 Matsumoto 就以人工定义的方式对汽车构建了含有 287 个的产品特征的产品特征词库,然后将产品特性词库和文本进行对比分析[4],这种人工定义产品特征的方法有一定的缺陷,首先不同的领域产品的特征是不同的,需要相应领域的专家才能建立完善的特征词库,不具有良好的移植性,其次,每改变一次产品功能,就需要修改一次特征词库,浪费大量的人力物力。 随后 Hu 和 Liu[5]提出了一种自动提取产品特征的方法。他们使用数据挖掘中的 Apriori 算法,首先筛选出常见的无用词汇,提取对应文本数据中出现频率较高的产品特征,构成频繁特征集。然后选取与频繁特征集中的项集共同出现的形容词作为意见词,再选取与意见词共同出现的名词组成非频繁特征集。在剪枝操作后,召回率和准确率都有了一定的提升。但是这种方法的缺陷是在复杂的句子中将无法表示产品特征和意见词之间的关系[6]。
...........
第二章 参考算法
本文提出的两个提取方法中,分别改进了 LDA 主题模型和基于上下文的隐性产品特征关联对提取算法,吸取了向量空间模型的核心思想,使用了 TF-IDF算法和余弦相似度,因此,本章将对本文中参考的算法进行简介。
2.1LDA 主题模型
大量文本的出现使分析文本越来越复杂,这导致了基于主题的分层次统计模型研究的出现,产生了以 LDA 为代表的概率主题模型[29]。与可以直接观察到的文档和词语相比,主题表示了这个文档或者词语潜在的含义,是一个抽象的概念。概率主题模型本质上是一种聚类,通过观察词语的分布规律,将有着相似分布规律的词语聚集在一起。主题在主题模型中对应的是聚类中的簇,每篇文档或者词语以不同的概率属于不同的主题。 LDA 是一种贝叶斯模型,利用了词袋的方法,该方法即将每篇文档看成词频的向量,词语与词语是无序的,这方便于数学建模。主题模型的中心思想是认为一个主题是由特定的词频分布构成的,一篇文章由几段话构成,一段话由许多句子构成,每个句子则是由许多词语组成,而词语的生成则是由特定主题下的词频概率分布中随机生成。
............
2.2 向量空间模型
向量空间模型即将文本处理的内容转化为向量空间中的向量计算,以数学化的语言表示文档内容,方便文档处理。向量空间模型有三个要素:(1)文档的表示;(2)文档类的表示;(3)文档与文档之间以及文档与文档类之间的相似度计算函数[31]。TF-IDF 是一种用于评估一个词对一篇文档的重要程度的统计方法。TF-IDF 的主要思想是:如果一个词语在一篇文档中出现的次数越多则其越重要,然而如果该词在整个文档集中出现的频率越高,则其反而越不重要。TF-IDF 实际上等于 TF*IDF,其中 TF 表示词频,指的是一个词在某个文档中出现的次数,IDF 表示逆向文件频率,表示一个词的普遍重要性。相似度计算函数可用来计算文档与文档之间以及文档与文档之间的相似度,该函数的计算结果如果大于某个值,则可认为这两个文档相似或者某个文档属于一个文档集。本文采用了余弦相似度算法来计算文档之间的相似度。 由于文档和文档类都可以用向量来表示,则求它们之间的相似度可看成求向量之间的距离,向量之间的夹角是用来求向量之间距离的一种方法。
.........
第三章 意见词和上下文词库的建立...... 12
3.1 语料的获取.... 12
3.2 词库建立方法........ 12
3.2.1 选择候选意见词和上下文词 ......... 12
3.2.2 上下文词库建立 ..... 14
3.2.3 意见词词库建立 ..... 16
3.3 实验与分析.... 16
3.4 本章小结........ 17
第四章 主题-意见词联合模型(JTO)提取方法研究 ......... 19
4.1 主题-意见词联合模型(JTO)提取方法研究背景 ........... 19
4.2 主题-意见词联合模型(JTO)提取方法实现 ........... 19
4.3 主题-意见词联合模型(JTO)提取方法实验分析 ......... 23
4.4 主题-意见词联合模型(JTO)提取方法适用范围 ......... 26
4.5 本章小结........ 26
第五章 考虑上下文权重的提取方法研究...... 28
5.1 考虑上下文权重的提取方法研究背景........ 28
5.2 考虑上下文权重的提取方法实现........ 28
5.3 考虑上下文权重的提取方法实验分析........ 32
5.4 考虑上下文权重的提取方法适用范围........ 34
5.5 本章小结........ 35
第五章 考虑上下文权重的提取方法研究
针对基于上下文的隐性产品特征关联对提取算法[6]、主题和意见词联合模型对上下文信息是否可信的情况都没有考虑,本文又提出了一种考虑上下文权重的方法,该方法改进了共现矩阵以显著区别意见词与上下文之间的距离,并根据此共现矩阵和 LDA 模型设计了一个公式来计算上下文权重值。本章将重点介绍考虑上下文权重提取方法的研究背景、方法实现、实验分析和适用范围。
5.1 考虑上下文权重的提取方法研究背景
已有研究表明对于意见词尤其是一般意见词来说,分析上下文信息将会使提取结果更加准确[6]。然而对于这类评论句“裙子很好,但是价格太贵了”,上下文信息“价格”并不是意见词“好”所暗示的产品特征。在这种情况下,单纯地考虑上下文信息也许会导致更加错误的结果。所以,判断上下文信息是否有用是很重要的工作。本文提出综合考虑上下文信息和意见词的主题信息将会解决此类问题。 目前,已经存在的提取隐性产品特征的方法主要考虑意见词和产品特征的关系。基于上下文的隐性产品特征关联对提取算法[6]则提出建立意见词和意见词附近的上下文词的共现矩阵,但是,在“手机很好,色彩明亮,屏幕也清晰,,就是价格太贵了”这样的评论句中,“色彩”和“屏幕”都是有用的上下文信息,而“价格”却不是。基于此,在计算共现矩阵中的共现值时,如果能够考虑意见词和不同上下文词之间的距离,则会使结果更加合理。同时,利用这个共现矩阵,还可得到意见词的上下文概率分布。 评论句中的每个词都有自己的主题,如果主题和上下文信息类似的话则说明这个上下文信息是可靠的。主题模型可用于提取词的主题,并且在一些参考文献中[34],与产品特征概念类似的产品类别已经被当作主题用来提取产品特征。基于此,可以得出利用主题模型能够求得意见词的隐性产品特征概率分布的结论。本方法将充分使用改进的共现矩阵和主题模型来解决上下文权重的问题。
............
总结
电子商务的迅速发展使电商平台上每天都会有大量包括购买记录、产品评论等数据在内的信息,其中,如果能充分分析评论信息以得出用户对产品的情感倾向,将会对商家以及其他用户带来一定的参考价值。但是,仅仅知道用户的情感倾向,却无法得知用户是对产品具体哪个特征的评论将会导致商家不知如何改进产品、其他用户无法对比选择。因此,为了使评论分析更加细粒,基于意见词的特征挖掘研究是很有必要的。产品特征可分为显性产品特征和隐性产品特征,显性产品特征研究成果较多,而隐性产品特征的研究尚有欠缺。 基于以上背景,本文以隐性产品特征提取为研究目标,以评论集为研究对象。在词库建立、提取算法改进、系统实现部分均做出了一定的贡献,具体的贡献内容可概括如下:
(1)在词库建立部分,现有的提取有效词的方法均有一定的片面性,只考虑了影响词的有效性的一个方面,本文提出了考虑多种因素的综合加权的方法来建立词库,首先对分词后的原始词库利用词组规则得到候选词库,再综合加权包括 TF-IDF 值、双向循环过滤值、词长权值、词组规则权值在内的多个值,从而得到最终的意见词和上下文词库。
(2)在提取算法改进部分,本文提出了两种不同的算法:首先,针对现有的基于上下文的算法只考虑同一个评论句的上下文,从而可能会导致结果不准确的情况,本文提出了主题-意见词联合模型(JTO),该模型在 LDA 的三个层级中加入了意见词层级,以获取某个意见词在全部评论集中的上下文概率分布;然后,由于基于上下文的隐性产品特征关联对提取算法和主题-意见词联合模型对上下文信息是否可信的情况都没有考虑,本文提出了考虑上下文权重的提取方法,同时在提取方法中也改进了共现矩阵以用距离信息来判断上下文信息的重要性。两种方法的实验结果表明对于隐性产品特征的提取,它们在召回率和准确率方面都有了一定的提升。
.........
参考文献(略)
本文编号:56310
本文链接:https://www.wllwen.com/wenshubaike/lwfw/56310.html