当前位置:主页 > 经济论文 > 电子商务论文 >

文本评论数据质量分析方法研究

发布时间:2018-10-22 09:29
【摘要】:随着电子商务的快速兴起,人们越来越倾向于网络购物。一方面由于网购交易双方信息的不对称性,使网购用户鉴定商品质量的困难加大,降低电子商务市场的交易效率;另一方面,用户评论数量巨大,且逐年增长,再加上用户的消费经验、评价态度等存在着巨大差异,导致评论数据中的信息和价值也参差不齐。因此,如何快速的从海量评论中获取有价值的信息是当前电子商务市场一项迫切而重要的任务。本文从文本评论的质量角度出发,基于评论中商品特征词之间的泛化/特化关系,建立商品特征主题层次结构,在该结构的基础上对文本质量进行分析,从而向用户推荐高质量评论数据。本文将每个商品下的所有评论作为一个文档,提取文本评论中用户常用的比较关注的商品特征,根据商品特征词之间的泛化/特化关系,本文提出了一种基于FCA的特征主题层次格构建方法(THL Based on FCA,TBF),以此来构建商品特征主题层次格(Topic Hierarchy Lattice,THL)。TBF方法在采用句法分析方法提取出的商品特征的基础上,利用文档主题生成模型(Latent Dirichlet Allocation,LDA)来进行主题分析,提取出特征主题(该主题是由一些商品特征词按照一定的概率分布组成的词组),并得到文档——主题(doc-topic)和主题——特征词(topic-word)概率矩阵,然后根据商品类别与特征主题之间的二元关系,采用形式概念分析(Formal Concept Analysis,FCA)的方法来构建THL。在THL的基础上,本文提出了文本评论质量的五个影响因素:全面性、专业性、内聚性、相关性和可读性,由此提出了一个商品评论的质量分析模型(Comment Quality Model Based on THL,CQM)来计算每条评论的质量分数。该模型结合了评论质量的五个影响因素,可以比较全面的评估评论的质量。本文选取某B2C电子商务平台2012年交易数据中的116个商品类别、6,212个商品和18,415,146条评论数据为实验数据集,并通过人工打分的形式收集了评论质量评分数据作为实验的测试数据集,实验结果中,CQM的MAE值为0.726,表明CQM对评论质量的预测评分与人工评分比较接近,验证了CQM对评论评分预测的准确性;另外,将CQM与四种常用的分类预测模型进行比较,其中Random Forest的分类效果最好,召回率最高为56.6%,验证了评论质量影响因素的合理性,同时,CQM也有比较好的分类效果,说明本文提出的CQM是有效的。
[Abstract]:With the rapid rise of e-commerce, people are more and more inclined to online shopping. On the one hand, because of the asymmetry of the information between the two sides of the online purchase transaction, it makes it more difficult for the online shopping users to identify the quality of the goods, thus reducing the transaction efficiency in the e-commerce market; on the other hand, the number of users' comments is huge, and the number of comments is increasing year by year. In addition, there are great differences in consumer experience, evaluation attitude and so on, which leads to the uneven information and value in the comment data. Therefore, how to quickly obtain valuable information from mass comments is an urgent and important task in the current e-commerce market. From the point of view of the quality of text comment, based on the generalization / specialization relationship between commodity feature words in the comment, this paper establishes the hierarchical structure of commodity feature topic, and analyzes the text quality on the basis of this structure. To recommend high-quality review data to users. In this paper, all the comments under each item are regarded as a document, which is used by the user in the text comment to extract the commodity features of concern, according to the generalization / specialization relationship between the commodity feature words. In this paper, we propose a method of constructing feature subject hierarchy based on FCA (THL Based on FCA,TBF), which is used to construct commodity feature subject hierarchy (Topic Hierarchy Lattice,THL). TBF method based on syntactic analysis. Using the document topic generation model (Latent Dirichlet Allocation,LDA) for topic analysis, The feature topic (the topic is a phrase composed of some commodity feature words according to a certain probability distribution) is extracted, and the probability matrix of document-topic (doc-topic) and theme-feature word (topic-word) is obtained. Then, according to the binary relationship between commodity category and feature theme, the formal concept is used to analyze (Formal Concept Analysis,FCA) to construct THL.. On the basis of THL, this paper proposes five factors that influence the quality of text review: comprehensiveness, professionalism, cohesion, relevance and readability. A quality analysis model (Comment Quality Model Based on THL,CQM) is proposed to calculate the quality score of each comment. The model combines five factors that influence the quality of comments and can be used to evaluate the quality of comments comprehensively. This paper selects 116 commodity categories, 6212 items and 18415146 comments data from a B2C e-commerce platform's 2012 transaction data as experimental data set, and collects the comment quality score data as the experimental test data set through the form of manual scoring. In the experimental results, the MAE value of CQM is 0.726, which indicates that the prediction score of CQM for comment quality is close to that of manual score, which verifies the accuracy of CQM in predicting comment score. In addition, CQM is compared with four commonly used classification prediction models. The classification effect of Random Forest is the best, and the highest recall rate is 56.6, which verifies the reasonableness of the influencing factors of comment quality. At the same time, CQM also has a better classification effect, which shows that the CQM proposed in this paper is effective.
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期

2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期

3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期

4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期

6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期

7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期

8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期

9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期

10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期

相关会议论文 前10条

1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年

4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年

7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年

8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年

10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年

相关重要报纸文章 前1条

1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年

相关博士学位论文 前10条

1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年

2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年

3 郑立洲;短文本信息抽取若干技术研究[D];中国科学技术大学;2016年

4 韩磊;汉语句义结构模型分析及其文本表示方法研究[D];北京理工大学;2016年

5 刘林;面向论坛文本的大学生情绪识别研究[D];华中师范大学;2016年

6 张博宇;基于局部特征的场景文本分析方法研究[D];哈尔滨工业大学;2015年

7 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年

8 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年

9 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年

10 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年

相关硕士学位论文 前10条

1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年

2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年

3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年

4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年

5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年

6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年

7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年

8 王s,

本文编号:2286773


资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2286773.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户53b7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com