电子商务领域中文本评论数据的专业度研究
本文关键词:电子商务领域中文本评论数据的专业度研究,由笔耕文化传播整理发布。
【摘要】:近几年来,随着电子商务市场的繁荣发展,越来越多的人们愿意在网上购买物品并撰写评论,同时,大多数消费者在网上购物时都会首先参考用户评论信息。然而电子商务市场的飞速发展带来了评论数据的爆炸式增长,如何从海量的文本评论中筛选出有价值的信息,为消费者、商家和平台服务商提供有用的决策支持,已成为目前电子商务市场迫切需要解决的问题。基于以上背景,本文分析了目前对于商品文本评论的主要研究内容和发展方向,独特地从“专业度”角度对商品文本评论的价值进行评估,具有重要意义。本文首先对目前电子商务领域中文文本评论的研究和应用情况进行了分析,同时总结了中文文本处理的相关技术,并从信息检索和本体思想得到启发,提出了一种基于专业度概念层次树的中文文本评论专业度计算模型。本文以2012年某B2C电子商务网站全年的交易数据为基础,首先设计并实现了基于基尼指数和商品类别的特征层次分类算法(Gini Category Feature Hierarchy Algorithm,简称GCF),并据此构建文本评论的专业度概念层次树(Professional Concept Hierarchy Tree,简称PCH-Tree)。GCF算法借鉴基于改进的基尼指数的文本特征选择方法和层次分类思想,计算每个根据特定句法规则提取出的专业度概念的特征值,通过一定的阈值选择策略为每个专业度概念标注商品类别。实验发现,本文提出的GCF特征层次分类算法的类别特征选取精确度较高。在构建了PCH-Tree的基础上,本文分别从评论的广度、深度和强度三个方面考虑,提出了三个商品文本评论的专业度因子:商品评论的有效长度、基于PCH-Tree的评论深度范围以及评论内聚度,并据此提出了一种商品文本评论专业度的计算模型(Professional Calculation Model of Commodity Text Review,简称RPC-Model),该模型主要以树节点深度和节点之间的距离为主要计算因子,同时融入了评论的有效长度,较全面地反映了评论的专业度。本文以2012年某B2C电子商务网站的18,415,146条评论数据和对应的115个商品类别作为实验数据集,通过调查网站收集近100人对文本评论专业度的评分数据作为验证数据集进行实验,同时将RPC-Model与长度模型和多种分类预测模型的实验结果进行比较。实验结果表明,本文提出的RPC-Model在计算商品文本评论专业度分数的准确率上略好于长度模型和分类预测模型,是可行有效的。最后,本文实现了仿真平台,包括文本评论专业度计算和类别PCH-Tree的维护两个模块。
【关键词】:中文文本评论 专业度 概念层次树 特征抽取
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 中文摘要3-4
- 英文摘要4-8
- 1 绪论8-16
- 1.1 研究背景与意义8-10
- 1.2 国内外研究现状10-12
- 1.3 应用前景及难点12-13
- 1.4 本文的主要工作13-15
- 1.5 本文的组织结构15-16
- 2 中文文本信息处理技术16-24
- 2.1 文本预处理技术16-17
- 2.2 向量空间文本表示模型17-18
- 2.3 特征选择18-20
- 2.4 文本分类方法20-21
- 2.4.1 Rocchio方法—相似度计算方法20
- 2.4.2 贝叶斯方法20-21
- 2.4.3 KNN方法—K近邻方法21
- 2.4.4 SVM—支持向量机21
- 2.4.5 Decision Tree—决策树方法21
- 2.5 文本分类阈值选择与评估方法21-22
- 2.5.1 阈值选择策略21-22
- 2.5.2 评估方法22
- 2.6 本章小结22-24
- 3 构建商品文本评论的专业度概念层次树24-37
- 3.1 商品文本评论数据概述24-27
- 3.2 商品文本评论数据预处理27
- 3.3 评论专业度概念抽取27-29
- 3.4 PCH-Tree的构建29-36
- 3.4.1 层次分类29-30
- 3.4.2 构建PCH-Tree的基本思想30-32
- 3.4.3 GCF层次分类算法32-36
- 3.5 本章小结36-37
- 4 基于PCH-Tree的商品文本评论专业度计算模型37-43
- 4.1 商品文本评论专业度概述37
- 4.2 基于PCH-Tree的评论专业度计算模型37-42
- 4.2.1 商品评论文本的有效长度37-38
- 4.2.2 基于PCH-Tree的商品评论文本深度范围38-40
- 4.2.3 商品文本评论的内聚度40-41
- 4.2.4 商品文本评论专业度41-42
- 4.3 本章小结42-43
- 5 实验设计与结果分析43-60
- 5.1 实验设计43-45
- 5.1.1 实验环境43
- 5.1.2 数据集选择与采集43-44
- 5.1.3 实验目标44
- 5.1.4 实验方案44-45
- 5.2 实验及结果分析45-52
- 5.2.1 GCF层次分类实验与评估45-47
- 5.2.2 评论专业度计算模型实验47-49
- 5.2.3 分类预测评论专业度实验49-52
- 5.3 实验系统52-59
- 5.3.1 评论专业度评分数据的获取52-54
- 5.3.2 系统的设计与实现54-56
- 5.3.3 结果展示56-59
- 5.4 本章小结59-60
- 6 总结与展望60-62
- 6.1 本文工作总结60-61
- 6.2 未来工作展望61-62
- 致谢62-63
- 参考文献63-67
- 附录67-72
- A. 本文所选择的商品类别细表67-72
- B. 作者在攻读硕士学位期间发表的论文目录72
- C. 作者在攻读硕士学位期间申请的专利目录72
- D. 作者在攻读硕士学位期间取得的科研成果目录72
【相似文献】
中国期刊全文数据库 前10条
1 李盛瑜;何文;;一种对聊天文本进行特征选取的方法研究[J];计算机科学;2007年05期
2 蒋志方;祝翠玲;吴强;;一个对不带类别标记文本进行分类的方法[J];计算机工程;2007年12期
3 赵钢;;从复杂文本中导入数据的方法[J];中国审计;2007年18期
4 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
5 李建中,杨艳,张艳秋;并行文本管理原型系统PDoc的功能与总体框架[J];哈尔滨工业大学学报;2004年09期
6 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
7 谌志群;;文本趋势挖掘综述[J];情报科学;2010年02期
8 王亚民;刘洋;;含附件文本的分类算法研究[J];情报杂志;2012年08期
9 江伟;潘昊;;基于优化的多核学习方法的Web文本分类的研究[J];计算机技术与发展;2013年10期
10 陈福海;C++中用>>和<<重载实现文本文件的方便存取[J];现代计算机;1997年05期
中国重要会议论文全文数据库 前10条
1 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
2 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
3 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
7 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 劳锦明;韦岗;;文本压缩技术研究的新进展[A];开创新世纪的通信技术——第七届全国青年通信学术会议论文集[C];2001年
10 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国重要报纸全文数据库 前1条
1 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
中国博士学位论文全文数据库 前10条
1 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
2 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
3 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
4 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
5 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
6 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
7 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
8 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
9 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
10 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 王轶霞;基于半监督递归自编码的情感分类研究[D];内蒙古大学;2015年
2 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
3 李少卿;不良文本及其变体信息的检测过滤技术研究[D];复旦大学;2014年
4 董秦涛;基于文本的个人情感状态分析研究[D];兰州大学;2015年
5 钟文波;搜索引擎中关键词分类方法评估及推荐应用[D];华南理工大学;2015年
6 黄晨;基于新词识别和时间跨度的微博热点研究[D];上海交通大学;2015年
7 陈红阳;中文微博话题发现技术研究[D];重庆理工大学;2015年
8 王s,
本文编号:333334
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/333334.html