基于区块链的酒店入住点评信用机制研究
发布时间:2020-12-18 06:24
在线点评的初衷是帮助潜在消费者高效获取信息,从而快速做出购买决策以及帮助商家调整市场策略,改进提供的商品和服务。但现实是,存在相当多的无关的评论,称之为垃圾评论。垃圾评论严重影响了在线点评应该发挥的作用,降低了潜在消费者的购买决策效率,提升了商家对商品和服务作出优化的难度,因此,如何识别和避免垃圾评论成为研究者亟待解决的重要课题。本文介绍了垃圾评论识别的研究背景和研究意义,概述了垃圾评论识别在国内外的研究现状,同时指出目前大多数的研究目标是如何识别垃圾评论,而忽略了从源头处减少垃圾评论的出现。基于以上叙述,本文所做的研究工作总结如下:(1)本文提出利用KL散度作为评论有用程度的度量,通过理论分析加上实验的方法确定了评论是否有用的判断标准。首先通过网络爬虫爬取了携程网上海地区酒店的在线点评超过10W条,用这些数据来训练LDA主题模型。使用吉布斯采样法来估计LDA主题模型的隐变量,通过不断地调整主题数量、收敛到目标分布所需要的最小迭代次数,并比较每次参数调整后的LDA主题模型的建模能力,确定了这两个参数的最佳取值。利用参数调整好并训练好的LDA主题模型推测新评论的主题分布。为了度量新评论的...
【文章来源】:长江大学湖北省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
评论截图
nz 其他专名 “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。t 时间词 取时间的英文 time 的首字母对中文进行分词之后通常要去掉分词结果中的一些并不重要的词,也即去停用词。在文本预处理过程中,为节约存储空间和提升搜索效率,在对自然文本信息进行深入分析之前,将某些字或词自动忽略,这些字或词即称为停用词[61]。停用词并非是自动化生成的,而是由人工输入的,这些由人工输入的停用词组成一个称为停用词表的词表。但是目前并没有一个适合所有中文处理场景的标准的停用词表,所以本论文中收集了哈工大停用词词库、四川大学机器学习智能实验室停用词库、百度停用词库等知名的停用词库,并进行整理,最终形成一份比较全面的停用词库。对评论文本进行中文分词之后的结果进行去停用词,这一流程之后的结果作为主题模型的输入。文档预处理的结果如图 3-3 所示。
图 3-5 Gibbs 采样算法Figure3-5 Gibbs sampling algorithm上述算法主要由初始化、更新纠正词语分配给每个主题的概率、收敛到目标分布之后间隔取样、迭代完成之后对取样的样本取均值四个步骤组成。初始化阶段描述如下:⑴初始化 4 个辅助变量 、 、 、 。这四个辅助变量的含义分别为: 表示序号为 m 的训练文档中分配给主题编号为 k 的主题的词语的数量,是一个M*K 的矩阵; 表示词表中编号为 t 的词语被分配为主题编号为 k 的主题的次数, 是一个 V*K 的矩阵; 表示分配给主题编号为 k 的主题的词语的数量; 表示序 号为 m 的训练文档中的序号为 n 的词语被分配的主题的编号。⑵遍历训练语料中的所有文档,对于编号为 m 的文档执行步骤⑶⑶遍历文档中的每一个词语,随机为其分配一个主题,并更新 4 个辅助变量。纠正词语分配给主题的概率的过程描述如下:
本文编号:2923526
【文章来源】:长江大学湖北省
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
评论截图
nz 其他专名 “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。t 时间词 取时间的英文 time 的首字母对中文进行分词之后通常要去掉分词结果中的一些并不重要的词,也即去停用词。在文本预处理过程中,为节约存储空间和提升搜索效率,在对自然文本信息进行深入分析之前,将某些字或词自动忽略,这些字或词即称为停用词[61]。停用词并非是自动化生成的,而是由人工输入的,这些由人工输入的停用词组成一个称为停用词表的词表。但是目前并没有一个适合所有中文处理场景的标准的停用词表,所以本论文中收集了哈工大停用词词库、四川大学机器学习智能实验室停用词库、百度停用词库等知名的停用词库,并进行整理,最终形成一份比较全面的停用词库。对评论文本进行中文分词之后的结果进行去停用词,这一流程之后的结果作为主题模型的输入。文档预处理的结果如图 3-3 所示。
图 3-5 Gibbs 采样算法Figure3-5 Gibbs sampling algorithm上述算法主要由初始化、更新纠正词语分配给每个主题的概率、收敛到目标分布之后间隔取样、迭代完成之后对取样的样本取均值四个步骤组成。初始化阶段描述如下:⑴初始化 4 个辅助变量 、 、 、 。这四个辅助变量的含义分别为: 表示序号为 m 的训练文档中分配给主题编号为 k 的主题的词语的数量,是一个M*K 的矩阵; 表示词表中编号为 t 的词语被分配为主题编号为 k 的主题的次数, 是一个 V*K 的矩阵; 表示分配给主题编号为 k 的主题的词语的数量; 表示序 号为 m 的训练文档中的序号为 n 的词语被分配的主题的编号。⑵遍历训练语料中的所有文档,对于编号为 m 的文档执行步骤⑶⑶遍历文档中的每一个词语,随机为其分配一个主题,并更新 4 个辅助变量。纠正词语分配给主题的概率的过程描述如下:
本文编号:2923526
本文链接:https://www.wllwen.com/guanlilunwen/lvyoujiudianguanlilunwen/2923526.html