金融领域文本分类算法的优化
发布时间:2024-05-25 06:34
随着金融产业的发展,人们对于金融相关信息的需求越来越多,金融领域资讯也随之增多。金融领域资讯文本往往有助于分析相关个股和公司股价的走势。然而,日渐增多的金融领域资讯文本杂而乱,充斥大量的非金融领域文本,如广告类文本、软文类文本、纯技术类文本等。为此,文本的金融领域相关性分析十分重要。已有的base版本的文本分类方法受限于训练语料的数据量大小,且基于词语的特征维度对文本建模,忽略了语义信息,准确率和召回率都比较低。从而提出对base版本的文本分类方法进行改进的措施,首先采用基于关键词和pattern等规则的方法召回文本生成训练语料;其次采用基于active learning和聚类等模型的方法标注文本生成训练语料;紧接着从基于文本内容和媒体账号两个维度对文本进行清洗挑选出高质量的训练文本;最后在文本分类的特征中引入带有语义信息的词向量特征对文本建模,采用不同的文本分类模型对文本建模做对比试验,对模型预测概率做实验调整,从而更准的去判断文本与金融领域是否相关。与此同时,为了更多更准的召回金融领域相关文本,改进的版本中在文本分类模型策略识别之前,融入了基于金融领域关键词识别的规则策略。实验结果...
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
本文编号:3981847
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
图4.2Activelearning示意图
图4.2Activelearning示意图(2)Activelearning的应用主动学习在本项目中主要分三步来完成:第一步用编辑标注的4444条数据,用fasttext模型训练一个初版的分类器;第二步用已经训练好的模型对历史数据进行预测,根据设定的查询函数从....
本文编号:3981847
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3981847.html
最近更新
教材专著