基于Word2Vec的在线商品特征提取与文本分类研究
发布时间:2021-09-06 11:07
随着信息时代的发展,信息过量增加了互联网用户对资讯识别的难度,传播的内容变得更加碎片化。文本分类技术通过自动识别特征信息,在庞大的文本数据中快速提取文档的核心内容,提高信息的检索效率。作为有效处理非结构化数据的工具,文本分类在数据挖掘领域逐渐成为研究热点。面向电子商务领域的文本数据更多呈现的是短文本形式,如商品标题、商品评论等。针对在线商品的管理首先依赖于商品的类目属性,在产品上架过程中由于用户的领域知识差异,会造成商品类目错置的问题,使得网络零售市场混乱,从而损害商家利益。为了维持网络销售市场秩序,提高市场管理效率,本文提出了一种基于Word2Vec文本表达的短文本分类新途径。现实生活中常存在类别不平衡的文本语料,本文通过skip-gram模型对在线商品标题文本训练得到词向量表示,构建特征间语义联系。针对传统特征选择方法在不平衡样本分类上的不足,综合考虑类别的分布因素以及特征在偏斜类别上的分布因素,对信息增益算法提出改进。在新浪新闻语料集上得到有效性验证后,将改进的算法应用在商品标题语料中,实现网络销售市场的商品自动分类。在获取类目主题时,引入了基于TextRank的关键词提取算法,...
【文章来源】:温州大学浙江省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
神经网络语言模型框架
图3-1电商标题语料采集框架??Figure?3-1?E-commerce?title?corpus?collection?framework??
图4-5不平衡徉本类别间的F1?-score比较??Figure?4-5?Comparison?of?Fl-score?within?categories?of?skewed?corpus??
【参考文献】:
期刊论文
[1]基于加权word2vec的微博情感分析[J]. 李锐,张谦,刘嘉勇. 通信技术. 2017(03)
[2]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[3]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[4]基于复杂网络的文本关键词提取算法研究[J]. 刘通. 计算机应用研究. 2016(02)
[5]基于最低词频CHI的特征选择算法研究[J]. 肖雪,卢建云,余磊,龚恒. 西南大学学报(自然科学版). 2015(06)
[6]浅谈云计算环境下大数据对电子商务的影响[J]. 周本海. 经济研究导刊. 2015(07)
[7]基于偏斜数据集的文本分类特征选择方法研究[J]. 刘振岩,孟丹,王伟平,王勇. 中文信息学报. 2014(02)
[8]词语位置加权TextRank的关键词抽取研究[J]. 夏天. 现代图书情报技术. 2013(09)
[9]一种基于互信息的改进文本特征选择[J]. 刘海峰,陈琦,张以皓. 计算机工程与应用. 2012(25)
[10]一种基于概率加权的朴素贝叶斯分类[J]. 白似雪,梅君,吴穹,朱涛. 南昌大学学报(理科版). 2009(02)
硕士论文
[1]商品垃圾评论检测系统的研究与应用[D]. 唐世昊.电子科技大学 2017
[2]六种语言词同现网络中心节点研究[D]. 李萍.山东大学 2014
[3]基于复杂网络的关键词提取研究[D]. 左晓飞.西安电子科技大学 2013
本文编号:3387344
【文章来源】:温州大学浙江省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
神经网络语言模型框架
图3-1电商标题语料采集框架??Figure?3-1?E-commerce?title?corpus?collection?framework??
图4-5不平衡徉本类别间的F1?-score比较??Figure?4-5?Comparison?of?Fl-score?within?categories?of?skewed?corpus??
【参考文献】:
期刊论文
[1]基于加权word2vec的微博情感分析[J]. 李锐,张谦,刘嘉勇. 通信技术. 2017(03)
[2]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[3]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[4]基于复杂网络的文本关键词提取算法研究[J]. 刘通. 计算机应用研究. 2016(02)
[5]基于最低词频CHI的特征选择算法研究[J]. 肖雪,卢建云,余磊,龚恒. 西南大学学报(自然科学版). 2015(06)
[6]浅谈云计算环境下大数据对电子商务的影响[J]. 周本海. 经济研究导刊. 2015(07)
[7]基于偏斜数据集的文本分类特征选择方法研究[J]. 刘振岩,孟丹,王伟平,王勇. 中文信息学报. 2014(02)
[8]词语位置加权TextRank的关键词抽取研究[J]. 夏天. 现代图书情报技术. 2013(09)
[9]一种基于互信息的改进文本特征选择[J]. 刘海峰,陈琦,张以皓. 计算机工程与应用. 2012(25)
[10]一种基于概率加权的朴素贝叶斯分类[J]. 白似雪,梅君,吴穹,朱涛. 南昌大学学报(理科版). 2009(02)
硕士论文
[1]商品垃圾评论检测系统的研究与应用[D]. 唐世昊.电子科技大学 2017
[2]六种语言词同现网络中心节点研究[D]. 李萍.山东大学 2014
[3]基于复杂网络的关键词提取研究[D]. 左晓飞.西安电子科技大学 2013
本文编号:3387344
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3387344.html
最近更新
教材专著