基于多模态的印尼语新闻文本分类
发布时间:2021-09-05 02:03
随着人工智能在人类自然语言中应用的越来越多,NLP(Natural Language Processing)在文本翻译、词性标注以及实体命名等领域中发挥着越来越重要作用。本论文的目的是在基于将计算机视觉中的图片信息和文本特征信息相融合的基础上对文本进行分类处理,主要研究工作由四个部分组成。针对多模态文本分类的词向量问题,设计了一种基于CBOW模型和Skip-Gram模型的SC词向量训练模型;分析已有的文本分类模型方法的优缺点,将已有方法进行创新融合。为了提升文本分类的准确率,我们提出了融合图片特征和文本特征的多模态文本分类模型MTC(Multimodal Text Classification),我们用Word2vec的CBOW和Skip-Gram两种方法对印尼语新闻的标题进行词级的特征提取,同时也用统计学习的方法TF-IDF来提取标题的词频特征和逆文档频率,将提取到的所有标题特征进行加和得到标题的词级特征;再通过将Bi-LSTM与TextCNN结构相融合,得到新的网络结构,来提取标题句子级的特征;将得到的词级特征与句级特征通过融合,作为标题特征。再对新闻的正文部分Bi-LSTM模型提...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数示意图
tanh函数示意图
ReLU函数示意图
【参考文献】:
期刊论文
[1]机器学习在网络空间安全研究中的应用[J]. 张蕾,崔勇,刘静,江勇,吴建平. 计算机学报. 2018(09)
[2]Multi-feature-Based Subjective-Sentence Classification Method for Chinese Micro-blogs[J]. ZHANG Yangsen,ZHANG Yaorong,JIANG Yuru,HUANG Gaijuan. Chinese Journal of Electronics. 2017(06)
[3]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[4]支持向量机理论及算法研究综述[J]. 汪海燕,黎建辉,杨风雷. 计算机应用研究. 2014(05)
[5]基于改进的隐马尔科夫模型的词性标注方法[J]. 袁里驰. 中南大学学报(自然科学版). 2012(08)
[6]基于多模态子空间相关性传递的视频语义挖掘[J]. 刘亚楠,吴飞,庄越挺. 计算机研究与发展. 2009(01)
本文编号:3384453
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
Sigmoid函数示意图
tanh函数示意图
ReLU函数示意图
【参考文献】:
期刊论文
[1]机器学习在网络空间安全研究中的应用[J]. 张蕾,崔勇,刘静,江勇,吴建平. 计算机学报. 2018(09)
[2]Multi-feature-Based Subjective-Sentence Classification Method for Chinese Micro-blogs[J]. ZHANG Yangsen,ZHANG Yaorong,JIANG Yuru,HUANG Gaijuan. Chinese Journal of Electronics. 2017(06)
[3]Word2vec的工作原理及应用探究[J]. 周练. 科技情报开发与经济. 2015(02)
[4]支持向量机理论及算法研究综述[J]. 汪海燕,黎建辉,杨风雷. 计算机应用研究. 2014(05)
[5]基于改进的隐马尔科夫模型的词性标注方法[J]. 袁里驰. 中南大学学报(自然科学版). 2012(08)
[6]基于多模态子空间相关性传递的视频语义挖掘[J]. 刘亚楠,吴飞,庄越挺. 计算机研究与发展. 2009(01)
本文编号:3384453
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3384453.html
最近更新
教材专著