基于深度学习的中文网购评论中产品特征挖掘
发布时间:2020-05-04 18:02
【摘要】:随着电子商务系统评价体系的完善,网购评论的内容对消费者的购物行为起到越来越重要的指导作用。网购评论客观体现了消费者对商家服务态度、售后服务和商品质量、外观、尺寸等方面的评价。消费者可以根据评论总体把握商品以及商家的优点和缺点,并能通过评论数据根据自己的喜好挑选商品;同时商家可以根据评论改善自己在店铺运营上存在的问题及时发现商品中存在的瑕疵,并根据消费者的喜好及时补充口碑好的商品。本文主要实现自动化抽取商品评论中的商品特征以及特征对应的评价,这样可以更加直观的体现商品各方面的优劣以及用户的偏好。对于文本序列中重要信息的抽取属于自然语言处理领域的信息抽取任务。基于深度学习实现序列预测模型对文本评论中的商品特征和特征对应的评价进行抽取,从而避免人工总结复杂的特征规则,模型同时具有商品领域普适性,可以适用于多种商品类别。据此本文具体做了以下几项工作:(1)由于自注意力(Self-Attention)机制在序列建模过程之中可以捕捉任意绝对位置和相对位置的依赖关系,所以本文提出利用Transformer模型的编码器模块构造LSTM-ATT-CRF信息抽取模型,在LSTM-CRF模型中加入自注意力机制弥补循环神经网络中梯度消失带来的文本上下文依赖信息的损失,增强模型对上下文信息记忆能力。(2)本文从基于字符级别的字向量和词汇级别的词向量两个方面进行建模,探究在商品特征及其评价信息抽取的最好实现方式。由实验可得基于字符级和词汇级的模型在商品特征抽取上存在差异,由于特征对应的评价表达方式多样,基于字符级别模型表现优于基于词汇级的模型,这主要是由于特征对应评价的表达方式多样,基于词汇级别模型中在进行中文分词阶段遇到了瓶颈。(3)在评论中商品特征多为名词,特征对应的评价多为形容词,在此背景下本文首次提出将词性等类别特征通过二进制编码和线性变换的方式转化成分布式向量表示,并在基于词汇级别建模中起到了提高名词和形容词识别率的作用。
【图文】:
隐马尔可夫模型由出初始化概率71,各状态之间的概率转移矩阵儿有当前逡逑状态生成当前观测[41]的发射概率矩阵B决定。隐马尔可夫模型人可以由71、4、S三逡逑元组表示,即A邋=邋01,5,?0,图2.1展示了隐马尔可夫模型的原理。逡逑h逦h逦h逦h+i逦h+2逡逑V逦>邋r逦>邋r逦V逦>邋r逡逑图2.邋1隐马尔可夫模型原理图逡逑隐马尔可夫模型服从齐次马尔可夫性和观测独立性两个基本假设[41],齐次马逡逑尔科夫性表示为当前时刻的状态只由前一时刻的状态有关和更早时刻的状态无逡逑8逡逑
X邋=邋(x1(x2,-,xn)逡逑图2.3线性链条件随机场逡逑由于概率无向图中最大团上势函数的乘积可以表示无向图的联合概率分布,逡逑线性链条件随机场中相邻的两个节点恰巧构成了最大团,所以Y的概率可由逡逑的两个节点是势函数乘积表示。逡逑P(y\x)邋=邋-^exp^khtkQyi-vyuXA)+邋1,1,1^邋(y£,,A:,0)邋(2.19)逡逑,逡逑Z(.x)邋=邋Y.y邋ex邋p0,i邋h邋h(yi-i.邋y0邋X,邋0邋+邋Sy邋liiSiiyi,x,邋0)邋(2.20)逡逑为i邋-邋1到i之间的标记转移特征函数, ̄为序列当前时刻的状态特征函数,逡逑N戏直鹞卣魅ㄖ兀
本文编号:2648780
【图文】:
隐马尔可夫模型由出初始化概率71,各状态之间的概率转移矩阵儿有当前逡逑状态生成当前观测[41]的发射概率矩阵B决定。隐马尔可夫模型人可以由71、4、S三逡逑元组表示,即A邋=邋01,5,?0,图2.1展示了隐马尔可夫模型的原理。逡逑h逦h逦h逦h+i逦h+2逡逑V逦>邋r逦>邋r逦V逦>邋r逡逑图2.邋1隐马尔可夫模型原理图逡逑隐马尔可夫模型服从齐次马尔可夫性和观测独立性两个基本假设[41],齐次马逡逑尔科夫性表示为当前时刻的状态只由前一时刻的状态有关和更早时刻的状态无逡逑8逡逑
X邋=邋(x1(x2,-,xn)逡逑图2.3线性链条件随机场逡逑由于概率无向图中最大团上势函数的乘积可以表示无向图的联合概率分布,逡逑线性链条件随机场中相邻的两个节点恰巧构成了最大团,所以Y的概率可由逡逑的两个节点是势函数乘积表示。逡逑P(y\x)邋=邋-^exp^khtkQyi-vyuXA)+邋1,1,1^邋(y£,,A:,0)邋(2.19)逡逑,逡逑Z(.x)邋=邋Y.y邋ex邋p0,i邋h邋h(yi-i.邋y0邋X,邋0邋+邋Sy邋liiSiiyi,x,邋0)邋(2.20)逡逑为i邋-邋1到i之间的标记转移特征函数, ̄为序列当前时刻的状态特征函数,逡逑N戏直鹞卣魅ㄖ兀
本文编号:2648780
本文链接:https://www.wllwen.com/jingjilunwen/guojimaoyilunwen/2648780.html