当前位置:主页 > 科技论文 > 自动化论文 >

多示例多标签网页分类关键技术研究

发布时间:2022-01-27 05:52
  随着信息化的发展,互联网中的信息呈指数级增长。如何快速的从互联网中获取人们需要的信息已成为亟待解决的问题,因此,网页分类技术应运而生。该技术可以对网页进行归纳整理,帮助人们有效组织和利用网络上的海量信息。在众多网页分类算法中,多示例多标签框架下的支持向量机因其出色的学习能力,已成为机器学习界的研究热点。介绍了网页分类的基本流程、相关技术及常用算法,阐述了支持向量机基本原理,描述了多示例多标签框架基本理论,分析了多示例多标签框架下支持向量机的分类算法。针对求解多示例多标签框架无法利用标签之间依赖关系造成的信息丢失问题,借鉴有序分类器链思想,提出了OCC-MIMLSVM+算法,该算法对分类器进行合理组织,将标签之间的依赖关系融入到算法的训练过程之中,使训练出的分类模型能够对标签之间的依赖关系加以利用,提高了分类准确率。针对多示例多标签算法无法利用无标签样本进行学习造成泛化能力差等问题,借鉴半监督支持向量机S4VM算法的思想,提出了S4VM-MIMLSVM+算法,该算法将S4VM算法的思想融入至多示例多标签算法之中,充分利用大量的无标签样本来训练分... 

【文章来源】:中国石油大学(华东)山东省211工程院校教育部直属院校

【文章页数】:82 页

【学位级别】:硕士

【部分图文】:

多示例多标签网页分类关键技术研究


半监督支持向量机Fig2-5Semi-supervisedSupportVectorMachines

柱状图,样本集,场景,全日制


中国石油大学(华东)全日制工程硕士学位论文29表3-2图像样本集上实验结果Table3-2Experimentalresultsonthescenedataset评价指标MIMLSVM+MIMLBOOSTMIMLSVMOCC-MIMLSVM+hammingloss0.224±0.0100.196±0.0230.173±0.0140.151±0.014one-error0.466±0.0430.695±0.0310.534±0.0430.310±0.031coverage1.441±0.1031.841±0.0571.577±0.0921.420±0.051rankingloss0.235±0.0140.241±0.0190.239±0.0180.191±0.010averageprecision0.731±0.0150.631±0.0360.659±0.0230.793±0.026为了更好的进行实验结果的比对,本文采用柱状图的形式对表3-2进行更加直观的展示,如图3-2至图3-6所示,图中颜色加深的柱体部分为OCC-MIMLSVM+算法的实验结果。图3-2场景样本集汉明损失Fig3-2Thehamminglossresultsonthescenedataset

样本集,错误率,场景,覆盖率


第三章基于分类器链的多示例多标签算法30图3-3场景样本集1-错误率Fig3-3Theone-errorresultsonthescenedataset图3-4场景样本集覆盖率Fig3-4Thecoverageresultsonthescenedataset

【参考文献】:
期刊论文
[1]基于结构和文本特征的网页分类技术研究[J]. 顾敏,郭庆,曹野,朱峰,顾彦慧,周俊生,曲维光.  中国科学技术大学学报. 2017(04)
[2]一种面向文本分类的特征向量优化方法[J]. 郭正斌,张仰森,蒋玉茹.  计算机应用研究. 2017(08)
[3]基于字符串匹配的中文分词算法的研究[J]. 常建秋,沈炜.  工业控制计算机. 2016(02)
[4]KNN分类算法改进研究进展[J]. 奉国和,吴敬学.  图书情报工作. 2012(21)
[5]基于信息增益与信息熵的TFIDF算法[J]. 李学明,李海瑞,薛亮,何光军.  计算机工程. 2012(08)
[6]基于IM-SAPSO和SVM的EBPSK检测器设计[J]. 靳一,王继武,吴乐南.  应用科学学报. 2012(02)
[7]基于卡方检验的汉语术语抽取[J]. 胡文敏,何婷婷,张勇.  计算机应用. 2007(12)
[8]网页分类技术[J]. 孙建涛,沈抖,陆玉昌,石纯一.  清华大学学报(自然科学版). 2004(01)

博士论文
[1]基于有监督学习的三维几何形状分析[D]. 谢智歌.国防科学技术大学 2015
[2]半监督支持向量机学习方法的研究[D]. 李宇峰.南京大学 2013

硕士论文
[1]面向主题的多线程网络爬虫的设计与实现[D]. 蔡光波.西北民族大学 2017
[2]基于多示例学习的图像检索算法研究[D]. 张苗.中国科学技术大学 2017
[3]中文分词算法的研究与实现[D]. 秦赞.吉林大学 2016
[4]基于统计与词典相结合的中文分词的研究与实现[D]. 周祺.哈尔滨工业大学 2015
[5]海量文本信息的Web采集与自动分类研究[D]. 李瑞.北京邮电大学 2015
[6]基于MIMLRBF神经网络的网页分类方法[D]. 王绵绵.中国石油大学(华东) 2014
[7]基于多示例多标签支持向量机的网页分类方法[D]. 张艳丽.中国石油大学(华东) 2014
[8]中文网页自动分类系统及关键技术研究与实现[D]. 周军.国防科学技术大学 2013
[9]基于向量空间模型的文本分类算法研究[D]. 张振峰.杭州电子科技大学 2011
[10]基于语义的中文文本预处理研究[D]. 张宁.西安电子科技大学 2011



本文编号:3611894

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3611894.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c40d1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com