基于服装网购评论文本挖掘的情报研究
发布时间:2021-07-04 16:45
随着服装行业与电子商务的紧密融合,服装网购已成为人们日常生活中不可分割的一部分,与此同时也产生了大量蕴含消费者反馈信息、极具情报研究价值的服装网购评论文本。然而这些评论数据体量庞大且信息繁杂,同时相比于其它商品,服装网购评论受消费者个体差异影响较大,更易给出主观且感性化的表达,因此情报挖掘难度更大。基于此本文立足于服装网购评论文本,引入文本挖掘技术从商品属性情感分析和社会语义网络分析两个角度构建情报研究模型并进行具体实证分析。本文将从以下五个章节进行阐述:第一章绪论主要阐述本文研究背景与意义、国内外情报研究现状、文本挖掘技术及其应用现状分析、研究内容和框架以及研究难点和结构安排。第二章服装网购评论数据及文本挖掘技术概述。从服装网购评论数据研究与采集、预处理再到中文分词、文本表示模型以及特征选择对相关理论进行具体概述。第三章提出基于商品属性情感分析的服装网购评论情报研究模型,研究通过网络爬虫获取评论数据,经预处理后进行word2vec模型训练,选取属性种子词进行语义相似度计算扩充特征属性词典,然后制定规则利用依存句法抽取属性观点词组并进行情感强度值计算,最终以具体的分值表现出消费者对商品...
【文章来源】:浙江理工大学浙江省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.?6?CBOW模型结构图
■mu??图3.1面料相似词计算??3.3属性观点词组抽取??属性观点词抽取一般有四种方法:词频共现法、机器学习法、主题模型法以及规则匹??配法。词频共现方法是在对评论语料进行中文分词词性分析和词频统计工序后,设置适当??的阈值大小对名词及其相近的形容词进行筛选保留。机器学习算法抽取准确率最好但其学??习训练过程需要花费较多的精力去标注语料,然后才能进行迭代训练。主题模型则是通过??上下文于语义关系械率式生成相关度较高的主题。而规则匹配法一般会根据某种特性设置??相关关联规则进行匹配提取,目前在属性观点词抽取方面较为常用的是利用依存句法对大??量评论进行结构分析并总结其主要句法路径,并据此制定提取规则用于匹配提龋??经过进一步比较分析,词频共现方法在抽取效果上表现较差,不但会遗漏许多低频有??效属性,还会提取大量高频无用属性。机器学习算法原理较为复杂、难实现且需要有大量??的人工标记费时费力。而主题模型提取个数难以确定且无监督的文档级概率式主题生成聚??类结果不可保证。而基于依存句法规则提取在操作难度和准确度方面均有一定的保障,其??在分析句法结构基础上制定规则模板进行抽取,原理茼单易操作,抽取效果较之传统提取??方法有了明显改善但定义的模板一定程度上过于泛化,抽取后需要进行过滤,因此本文在??分析句法结构制定规则自动化抽取属性观点词对后,利用构建的特征词典和情感词典进行??匹配过滤,进一步提高属性观点词组抽取的精准度。???表3.1属性观点词组抽取方法比较分析???1取方法?优缺点对比分析?^??词频共现法?原理简单易操作但抽取准确度较差,不但会遗漏低频有效属性观点,还?? ̄22 ̄??
#上?an?2?和.?ts?内?1?私多饞.?霉#?參黌?81?句太好????v?n?d?v?wp?f?*?v?r???m?i???t??????(?4?i??e??图3.?2依存句法关系弧形表示图??同时,在LTP语言云平台中,用户使用超文本传输协议通过post向服务器提交请求,??服务器则会提供XML格式数据至服务端口。具体地,XML格式数据表示如下:??OI.?:?<?x?l?versionzi.0”?encodin丨■”utf-S”??>??C2.?<xml4nlp>??83.?<note?sent?"y”?word**!?**?pos?-y"?ne__y"?parsersenp?rser?*n**?lstEis?*p?rser?_y-?srl^”y-*/>??OJ.?<doc>??35.?<p?ra?id?M0">??时-?<s?nt?i<J=T?c〇nt=■"芽上效果迁可以,S宽t*i格不值羝么多钱,有点小责,质重不是太好?->??07.?<wcrd?id*"e-?cont?"^i"?pos-'V?n?-"uracfire<J"?parar.t?**l"?relate-*'ATT*?se?parent?*-l"?s?r.rilate*"Root">??05.?<s?j??id-?"ufKJ?fir>e〇"?pBrent-^S-?relate*"dExp"/>??&9.?i?</warc>??1?.?<?ord?i<S*"l"?cor?t*-5J[^*?pos-Mn"?ne-"undefinsd"?parent^'S-?reiate-"SBV"?scttpzrtnt""Q"?se
【参考文献】:
期刊论文
[1]电商领域中有关物流评价中文分词的研究[J]. 钟静晨,祁云嵩. 计算机与数字工程. 2019(11)
[2]基于风险生命周期的企业反竞争情报机制模型构建[J]. 杨波,孙白朋. 现代情报. 2019(11)
[3]基于HMM的算法优化在中文分词中的应用[J]. 朱咸军,洪宇,黄雅琳,张馨予,肖芳雄. 金陵科技学院学报. 2019(03)
[4]基于关键词共现和社会网络分析法的我国企业竞争情报热点主题研究[J]. 贾旭楠. 情报探索. 2019(08)
[5]基于改进遗传算法-神经网络的玄武岩构造环境判别及对比实验[J]. 任秋兵,李明超,韩帅. 地学前缘. 2019(04)
[6]基于改进的TF-IDF与隐朴素贝叶斯的情感分类研究[J]. 李晓东,肖基毅,邹银凤. 南华大学学报(自然科学版). 2019(02)
[7]基于在线评论文本挖掘的商业竞争情报分析模型构建及应用[J]. 张振华,许柏鸣. 情报科学. 2019(02)
[8]社会网络分析方法在情报分析中的应用研究[J]. 陈云伟. 情报学报. 2019(01)
[9]基于共词分析的我国服装学科研究热点可视化分析[J]. 任佩萱. 金融经济. 2018(22)
[10]反恐情报信息工作能力的体系框架研究[J]. 安璐,吴燕珠,李纲. 图书馆学研究. 2018(17)
博士论文
[1]基于在线评论的网络口碑生成机理及监测预警研究[D]. 彭丽徽.吉林大学 2019
[2]面向医药企业的专利威胁预警模型构建及实证研究[D]. 张世玉.吉林大学 2018
硕士论文
[1]基于机器学习的恶意网址识别方法的研究与发现[D]. 张慧.北京建筑大学 2019
[2]系统论视野下的美国战争决策过程分析[D]. 申杨.延边大学 2018
[3]电商空调产品的评论数据情感分析[D]. 杨瑞欣.山西大学 2017
[4]基于词典与统计结合的中文分词方法研究及全文检索系统设计[D]. 周世宇.华中师范大学 2017
[5]基于文本数据挖掘技术的用户需求分析研究[D]. 李玉博.哈尔滨工程大学 2017
[6]基于用户评价的企业竞争情报社会网络分析[D]. 徐萌.山东科技大学 2017
[7]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[8]正面在线评论对服装消费者购买意愿影响的实证研究[D]. 韩立娜.东北大学 2013
本文编号:3265159
【文章来源】:浙江理工大学浙江省
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.?6?CBOW模型结构图
■mu??图3.1面料相似词计算??3.3属性观点词组抽取??属性观点词抽取一般有四种方法:词频共现法、机器学习法、主题模型法以及规则匹??配法。词频共现方法是在对评论语料进行中文分词词性分析和词频统计工序后,设置适当??的阈值大小对名词及其相近的形容词进行筛选保留。机器学习算法抽取准确率最好但其学??习训练过程需要花费较多的精力去标注语料,然后才能进行迭代训练。主题模型则是通过??上下文于语义关系械率式生成相关度较高的主题。而规则匹配法一般会根据某种特性设置??相关关联规则进行匹配提取,目前在属性观点词抽取方面较为常用的是利用依存句法对大??量评论进行结构分析并总结其主要句法路径,并据此制定提取规则用于匹配提龋??经过进一步比较分析,词频共现方法在抽取效果上表现较差,不但会遗漏许多低频有??效属性,还会提取大量高频无用属性。机器学习算法原理较为复杂、难实现且需要有大量??的人工标记费时费力。而主题模型提取个数难以确定且无监督的文档级概率式主题生成聚??类结果不可保证。而基于依存句法规则提取在操作难度和准确度方面均有一定的保障,其??在分析句法结构基础上制定规则模板进行抽取,原理茼单易操作,抽取效果较之传统提取??方法有了明显改善但定义的模板一定程度上过于泛化,抽取后需要进行过滤,因此本文在??分析句法结构制定规则自动化抽取属性观点词对后,利用构建的特征词典和情感词典进行??匹配过滤,进一步提高属性观点词组抽取的精准度。???表3.1属性观点词组抽取方法比较分析???1取方法?优缺点对比分析?^??词频共现法?原理简单易操作但抽取准确度较差,不但会遗漏低频有效属性观点,还?? ̄22 ̄??
#上?an?2?和.?ts?内?1?私多饞.?霉#?參黌?81?句太好????v?n?d?v?wp?f?*?v?r???m?i???t??????(?4?i??e??图3.?2依存句法关系弧形表示图??同时,在LTP语言云平台中,用户使用超文本传输协议通过post向服务器提交请求,??服务器则会提供XML格式数据至服务端口。具体地,XML格式数据表示如下:??OI.?:?<?x?l?versionzi.0”?encodin丨■”utf-S”??>??C2.?<xml4nlp>??83.?<note?sent?"y”?word**!?**?pos?-y"?ne__y"?parsersenp?rser?*n**?lstEis?*p?rser?_y-?srl^”y-*/>??OJ.?<doc>??35.?<p?ra?id?M0">??时-?<s?nt?i<J=T?c〇nt=■"芽上效果迁可以,S宽t*i格不值羝么多钱,有点小责,质重不是太好?->??07.?<wcrd?id*"e-?cont?"^i"?pos-'V?n?-"uracfire<J"?parar.t?**l"?relate-*'ATT*?se?parent?*-l"?s?r.rilate*"Root">??05.?<s?j??id-?"ufKJ?fir>e〇"?pBrent-^S-?relate*"dExp"/>??&9.?i?</warc>??1?.?<?ord?i<S*"l"?cor?t*-5J[^*?pos-Mn"?ne-"undefinsd"?parent^'S-?reiate-"SBV"?scttpzrtnt""Q"?se
【参考文献】:
期刊论文
[1]电商领域中有关物流评价中文分词的研究[J]. 钟静晨,祁云嵩. 计算机与数字工程. 2019(11)
[2]基于风险生命周期的企业反竞争情报机制模型构建[J]. 杨波,孙白朋. 现代情报. 2019(11)
[3]基于HMM的算法优化在中文分词中的应用[J]. 朱咸军,洪宇,黄雅琳,张馨予,肖芳雄. 金陵科技学院学报. 2019(03)
[4]基于关键词共现和社会网络分析法的我国企业竞争情报热点主题研究[J]. 贾旭楠. 情报探索. 2019(08)
[5]基于改进遗传算法-神经网络的玄武岩构造环境判别及对比实验[J]. 任秋兵,李明超,韩帅. 地学前缘. 2019(04)
[6]基于改进的TF-IDF与隐朴素贝叶斯的情感分类研究[J]. 李晓东,肖基毅,邹银凤. 南华大学学报(自然科学版). 2019(02)
[7]基于在线评论文本挖掘的商业竞争情报分析模型构建及应用[J]. 张振华,许柏鸣. 情报科学. 2019(02)
[8]社会网络分析方法在情报分析中的应用研究[J]. 陈云伟. 情报学报. 2019(01)
[9]基于共词分析的我国服装学科研究热点可视化分析[J]. 任佩萱. 金融经济. 2018(22)
[10]反恐情报信息工作能力的体系框架研究[J]. 安璐,吴燕珠,李纲. 图书馆学研究. 2018(17)
博士论文
[1]基于在线评论的网络口碑生成机理及监测预警研究[D]. 彭丽徽.吉林大学 2019
[2]面向医药企业的专利威胁预警模型构建及实证研究[D]. 张世玉.吉林大学 2018
硕士论文
[1]基于机器学习的恶意网址识别方法的研究与发现[D]. 张慧.北京建筑大学 2019
[2]系统论视野下的美国战争决策过程分析[D]. 申杨.延边大学 2018
[3]电商空调产品的评论数据情感分析[D]. 杨瑞欣.山西大学 2017
[4]基于词典与统计结合的中文分词方法研究及全文检索系统设计[D]. 周世宇.华中师范大学 2017
[5]基于文本数据挖掘技术的用户需求分析研究[D]. 李玉博.哈尔滨工程大学 2017
[6]基于用户评价的企业竞争情报社会网络分析[D]. 徐萌.山东科技大学 2017
[7]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[8]正面在线评论对服装消费者购买意愿影响的实证研究[D]. 韩立娜.东北大学 2013
本文编号:3265159
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3265159.html
最近更新
教材专著