基于半监督学习的短文本分类研究
发布时间:2024-03-23 02:17
在即时通信和互联网技术的快速发展中,网络中的信息每天都在以飞快的速率增长着,各种类型社交网络的出现使得短文本信息正在迅速占领我们的视野,这种文本一般的长度为160个字左右,并且种类繁多,常常以口语化、网络化的不规则形式出现。长度短,信息量少是这类短文本的主要特点,但是这些文本可能携带着很多有价值的信息内容,所以对短文本进行优良的的组织分类是值得研究的。传统的文本分类方法大多是以长文本作为对象进行研究的,如果直接套用于短文本将会影响分类取得的效果。此外,获取用于构建传统文本分类器的已标注样本是由人工进行标注的,不但耗时而且耗力,还易形成标注瓶颈,与之相比,大量的无标注样本的获取却是比较容易的。传统基于监督学习的分类方法,只是利用了数据样本集合中的已标注样本,而没有关注无标注样本自身所包含的信息,没有能很好地发掘出可能隐藏的信息。半监督学习方法是将已标注的小量样本与未经标注的大量样本相结合来进行训练,从而使无标注部分能被充分地利用,文本分类器性能得到有效地改善,于是这类的方法也逐步受到人们的广泛关注。根据短文本的独特之处,本文对短文本分类技术进行了如下几点研究:1.前期查阅资料过程中,总结...
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
本文编号:3935298
【文章页数】:49 页
【学位级别】:硕士
【部分图文】:
图4-1举例说明长边对计算
图4-1举例说明长边对计算pL规范的影响。(a)(b)为两个示例路径和当p=1,2,3范。(c)为两个不同类中的三个节点。x1和x3由高密度区域的紧凑路径连接,而x2通过稀疏分别相连。4.3实验结果及分析4.3.1数据描述本文用到的5个测试数据集,文献[51]中....
图4-2通过不同的T和p阐述了路径的得分(ijs)情况图
图4-2通过不同的T和p阐述了路径的得分(ijs)情况图通过不同的T和p阐述了路径的得分(ijs)情况。图的路径得分ijS。两个已知标签的节点红色的圆和蓝色的三和新月形集群。黄色的正方形为未知标签节点,位于柱形径到红色的节点,7条路径到蓝色的节点。线的宽....
图4-3五种算法分别在100个带标记节点数据集(MNIST)和10个带标记节点数据集(G241c,USPS,COIL,BIC)上的错误分类率图
类假设不成立,就会取得不理想分类结果,例如(G241c)。本文的算法在与MMLP算法有近似运行时间的情况下,可以得到更为精确的类结果。本文算法也依赖于聚类假设,例如,在G241c中存在稠密的重叠部分,两个不同的类别之间存在很多紧密的路径,导致分类结果的不精确。与AGR....
本文编号:3935298
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3935298.html