基于粗糙集的多标记文本分类方法研究
发布时间:2020-05-14 23:24
【摘要】:各种电子商务平台及社交媒体网站的广泛涌现,使得互联网上累积了广大用户关于产品性能及消费体验的海量评价文本数据,这些数据中不仅隐含着用户的消费行为模式,而且隐含着产品性能及商家服务的局限性信息。此类数据的分析与挖掘对于分析用户消费行为,服务电子商务决策,改善营销策略具有重要的现实意义。对文本挖掘而言,经典的单标记监督学习方法已经难以满足多样性文本信息的处理需求。因此,对多标记文本分类方法的研究,以及合理使用多标记学习方法处理各类文本数据,对文本数据挖掘而言,具有重要意义。粗糙集作为一种处理不确定信息的有效工具,该理论在分类规则学习和属性约简方面都取得了很多研究成果。本文以实际应用——网页文档分类和产品评论方面挖掘为背景,基于粗糙集理论对多标记文本的分类方法开展研究,主要内容和结论如下:(1)多标记文本语料的构建与分析本文选取大量网页文档和汽车产品评论数据作为实验语料,对面向主题的网页文档和面向观点挖掘的评论文本所涉及的多标记问题,结合多标记文本挖掘方法,构建中文多标记文本数据集。同时,针对产品评论中的多方面性能评价问题,提出一种基于多标记学习的识别框架。(2)基于稳健模糊粗糙集模型的多标记文本分类为应对多标记数据的不确定性及噪声,提出了一种新的多标记稳健模糊粗糙分类模型。该模型是处理单标记分类问题的k-mean稳健统计量模糊粗糙分类模型的扩展应用。对于每个待分类数据,首先根据文本相似性计算方法,得到其相对于各标记的隶属度;然后根据隶属度定义待分类数据与各标记的相关度;最后为每一组相关度赋予合适的阈值,得到相关的标记集合。在真实多标记文本数据集以及常用多标记评测指标上的实验结果表明,所提模型在多标记网页文本的主题分类问题上,取得了很好的效果。(3)基于粗糙集的链式专属特征多方面识别针对产品评论文本中的多方面性能评价问题,提出一种基于粗糙集的链式专属特征多方面识别方法。该方法以粗糙集理论为基础,通过为每个方面标记提取标记相关的专属特征,构建专属特征分类器链,以多标记分类方法解决多方面识别问题。在新浪汽车评论语料上的实验表明,与多种多标记文本分类方法相比,该方法的方面识别子集准确率可达95%,验证了多标记学习方法在评论文本的多方面性能识别问题中的可行性。
【图文】:
关于新浪汽车网站上的马自达CX-5品牌车型的用户评论,如图3.1所示为例可W看出,网友的评论包含汽车的舒适性和经济性等性能方面,针对方点挖掘能够更细致地反应汽车性能特点。逡逑手马自达CM逡逑篇巧::^2满巧1邋开了?-年.豆么里6邋8个油.逡逑mmmmm-逦回百卿灻橄&逡逑
3.2根据图3.2可得整个框架流程描述为;对从新浪汽车网站上获取的汽车评论文本逡逑进行整理,从中随机抽取出部分语料,为每篇文档标注出方面标签,删除人工无法逡逑标记的文档,,构成实验语料;将汽车本体特征加入用户词典,用分词软件对实验数逡逑据分词,抽取出所有名词性词语作为候选特征集;采用多标记文本特征选择方法,逡逑
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
本文编号:2664096
【图文】:
关于新浪汽车网站上的马自达CX-5品牌车型的用户评论,如图3.1所示为例可W看出,网友的评论包含汽车的舒适性和经济性等性能方面,针对方点挖掘能够更细致地反应汽车性能特点。逡逑手马自达CM逡逑篇巧::^2满巧1邋开了?-年.豆么里6邋8个油.逡逑mmmmm-逦回百卿灻橄&逡逑
3.2根据图3.2可得整个框架流程描述为;对从新浪汽车网站上获取的汽车评论文本逡逑进行整理,从中随机抽取出部分语料,为每篇文档标注出方面标签,删除人工无法逡逑标记的文档,,构成实验语料;将汽车本体特征加入用户词典,用分词软件对实验数逡逑据分词,抽取出所有名词性词语作为候选特征集;采用多标记文本特征选择方法,逡逑
【学位授予单位】:山西大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【参考文献】
相关期刊论文 前8条
1 李华;李德玉;王素格;张晶;;基于粗糙集的多标记专属特征学习算法[J];小型微型计算机系统;2015年12期
2 张晶;李德玉;王素格;李华;;基于稳健模糊粗糙集模型的多标记文本分类[J];计算机科学;2015年07期
3 李华;李德玉;王素格;张晶;;多标记数据特征提取方法的核改进[J];计算机应用;2015年07期
4 段洁;胡清华;张灵均;钱宇华;李德玉;;基于邻域粗糙集的多标记分类特征选择算法[J];计算机研究与发展;2015年01期
5 高嘉伟;梁吉业;刘杨磊;李茹;;一种基于Tri-training的半监督多标记学习文档分类算法[J];中文信息学报;2015年01期
6 程圣军;黄庆成;刘家锋;唐降龙;;一种改进的ML-kNN多标记文档分类方法[J];哈尔滨工业大学学报;2013年11期
7 王素格;尹学倩;李茹;张杰;吕云云;;基于非完备信息系统的评价对象情感聚类[J];中文信息学报;2012年04期
8 广凯;潘金贵;;一种基于向量夹角的k近邻多标记文本分类算法[J];计算机科学;2008年04期
本文编号:2664096
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/2664096.html