改进的K近邻算法及其在文本分析中的应用

发布时间：2021-08-11 18:28

　　随着互联网的发展,实体经济与互联网的结合越来越紧密,人们由线下消费向线上消费转移。互联网上积累了大量人们参与的实体消费的评论信息。这些评论信息是顾客线上消费的重要参考依据,同时也是经营实体经营决策的重要参考,因此合理有效的挖掘评论数据,提取顾客消费评论中的关注点和情感因素对实体经济发展具有重要作用。k近邻算法因其理论简单,易于实施等优点在机器学习和数据挖掘领域得到广泛应用。但是针对文本分析中特征维度高、文本数值化后语意解释等问题,传统k近邻算法无法很好的处理。对传统k近邻算法进行改进优化,使其更加适用于文本分析处理场景是本文的研究重点。本文主要创新点如下:（1）针对文本分词后得到的词向量忽略了上下文语意关系,导致算法准确率较低的缺点,引入组合特征,将前后相连的实体词与情感修饰词相结合形成组合特征,使词向量保持基本的语意关系,提高算法的准确率。实验证明,在不同算法模型下,引入组合特征可以得到更高的拟合准确率。（2）基于TF-IDF和基尼不纯度构造特征筛选综合指标（TF-GINI）进行特征选择,在弥补TF-IDF在有监督学习样本中忽略类别变量的缺陷的同时降低特征维度,提高算法效率,并以TF...

【文章来源】：南京邮电大学江苏省

【文章页数】：69 页

【学位级别】：硕士

【部分图文】：

改进的K近邻算法及其在文本分析中的应用

文本情感分析流程图

流程图,流程图,据点,近邻

南京邮电大学专业学位硕士研究生学位论文第二章相关背景知识介绍12具体流程如下：图2.2KD树建树流程图在树模型中搜索待分类数据点的近邻数据点：在树模型中可以更加快速的搜索待分类数据点的近邻数据点，对于待分类的数据点，将其带入到KD树中，遍历得到包含待分类数据点的叶子节点。以待分类数据点为圆心，叶子节点到待分类数据点之间的间隔度量值为半径，形成超球体，离待分类数据点间隔度量值最小的数据点一定在超球体内。返回父节点，在另一个子节点检查其包含的数据点形成的超矩形是否与超球体相交，如果相交，计算该子节点包含的数据点与待分类数据点的间隔值，若小于半径，更新最近邻数据点。若不相交，返回父节点的父节点，继续搜索待分类数据点的最近邻数据点，直到回到KD树的根节点，结束KD树搜索。综上所述，利用KD树搜索待分类数据点的近邻数据点，可以很大程度的减少数据点间间隔度量值的计算，若超矩形与超球体不相交，则不需要计算待分类数据点与另一子树包含的数据点之间的间隔度量值，很大程度上减小了算法的运行效率。KD树预测：利用KD树对待分类数据点进行类别预测，只需通过KD树搜索得到待分类数据点的k个近邻数据点，通过多数表决，就可以得到待分类数据点的类别。具体做法如下：首先通过KD树寻找与待分类数据点最近的数据点作为第一个近邻数据点。然后排除已找到的近邻数据点，在KD树中继续寻找与待分类数据点最近的数据点，作为第二个近邻数据点，如此遍历，直到找到k个与待分类数据点最近的数据点，利用多数表决方式，对近邻数据点进行表决，得到待分类数据点的类别。

饼图,样本,酒店,园地

南京邮电大学专业学位硕士研究生学位论文第三章基于组合特征的词向量构建方法223.3仿真实验3.3.1实验数据本论文实验数据使用的是美团网南京市30家如家酒店顾客消费评论数据，共16299条评论，包含很满意、满意、一般、不满意、很不满意5个类别。原始数据如下表：表3.2原始数据表将很满意和满意作为正面评论数据，一般作为中性评论数据，不满意很不满意作为负面评论数据，其中正面评论8158条，中性评论数据4843条，负面评论3298条。图3.2样本占比图通过饼图可以发现酒店评论数据具有不平衡性，正面评论数据多与负面评论数据，由于爬取的评论文本数据量较大，对正面评论数据进行下采样，随机选择4000条正面评论样本用于模型建立，使正负面评论数据保持相对平衡，平衡数据集后，数据共12141条。选取80%数据作为训练集用于模型训练，剩下数据集作为测试集，评估模型性能。评论数据可以体现客户对酒店入住的关注点，在多条文本评论中出现的词可店名评论时间评论者评论内容文本得分数值得分如家酒店（南京新街口张府园地铁站店）2019-10-06匿名用户服务好,,房间大,,非常干净,地理位置特别好，就在张府园地铁一号出口往前走几步，距离新街很满意5如家酒店（南京新街口张府园地铁站店）2019-09-20匿名用户离地张府园1号铁口很近，离三元巷公交站很近，去各大景点都很方便住了两晚，干净舒适，打满意4如家酒店（南京新街口张府园地铁站店）2019-09-02gSl993432462前台马经理服务非常好，热情耐心的讲解周边小吃，旅游景点，还帮我们预约景点门票，为她的很满意5如家酒店（南京新街口张府园地铁站店）2019-08-28蒋王彤房子挺好的，一家三口来南京玩住的，靠附近景区，大洋百货近。含了两份自助早饭，可以很满意5如家酒店（南京新街口张府园地铁站店

【参考文献】：
期刊论文
[1]基于词袋模型和TF-IDF的短文本分类研究[J]. 黄春梅,王松磊.  软件工程. 2020(03)
[2]浅谈机器学习情感分析方法[J]. 李鼎.  农家参谋. 2020(05)
[3]基于TF-IDF中文文本分类实现[J]. 石凤贵.  现代计算机. 2020(06)
[4]基于文本挖掘的京东商品评论分析[J]. 徐蕾,张科伟.  内蒙古科技与经济. 2020(03)
[5]K-Means聚类算法研究综述[J]. 杨俊闯,赵超.  计算机工程与应用. 2019(23)
[6]随机森林算法研究综述[J]. 吕红燕,冯倩.  河北省科学院学报. 2019(03)
[7]基于改进信息增益的特征选择方法研究[J]. 董露露,马宁.  萍乡学院学报. 2019(03)
[8]稀疏回归和流形学习的无监督特征选择算法[J]. 周婉莹,马盈仓,郑毅,杨小飞.  计算机应用研究. 2020(09)
[9]一种采用冗余性动态权重的特征选择算法[J]. 肖利军,郭继昌,顾翔元.  西安电子科技大学学报. 2019(05)
[10]基于KD树和KNN的高校学生异常状态预警算法研究[J]. 李礁,钟乐海.  信息技术与信息化. 2019(05)

博士论文
[1]情感词典构建方法及其应用研究[D]. 邓东.北京交通大学 2019
[2]面向不平衡数据的特征选择与半监督分类算法研究[D]. 杜利敏.西南交通大学 2017

硕士论文
[1]基于过滤法的信息论特征选择算法研究[D]. 张平.吉林大学 2018
[2]基于机器学习的情感分析方法研究[D]. 张磊.电子科技大学 2018

本文编号：3336667

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3336667.html

上一篇：融合结构信息的小样本关系抽取技术研究
下一篇：基于自适应集成学习的交通时序预测算法研究及应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|