利用深度学习融合模型提升文本内容安全的研究
发布时间:2022-01-11 15:54
互联网和移动互联网中的信息内容急速膨胀,导致其中充斥着违法违规和不良信息,影响互联网空间的内容安全。基于敏感词匹配的传统文本内容安全识别方法忽略上下文语义,导致误报率高、准确率低。在分析传统文本内容安全识别方法的基础上,提出了利用深度学习的融合识别模型以及模型融合算法流程。深入介绍了基于利用深度学习的融合识别模型的文本内容安全识别系统,并进行了实验验证。结果表明,所提模型可以有效解决传统识别方法缺乏语义理解造成误报率高的问题,提高了不良信息检测的准确性。
【文章来源】:电信科学. 2020,36(05)
【文章页数】:6 页
【部分图文】:
传统文本类内容安全识别系统
在文本类内容安全识别中引入基于深度学习的神经网络模型,解决传统文本类内容安全识别方法中的上下文语义理解缺失的问题。神经网络模型虽然能够对文本信息进行上下文关联的语义理解分类[9],然而,由于神经网络模型的训练需要涵盖每个类别标签的大量样本数据,而违法违规和不良信息的类别标签存在时效性,会经常进行增删,在增加某一类别时,相应的敏感词库能够快速更新,而对应新类别标签的样本数据却不那么容易获得,所以无法做到样本库的及时有效更新。所以,仅依赖神经网络模型来识别违法违规和不良信息,存在漏报的风险。所以,应综合应用敏感词匹配和神经网络模型两种方法,结合神经网络和敏感词匹配两种方法的融合识别模型结构如图2所示。融合识别模型包含两种识别方法:敏感词匹配和神经网络模型,通过模型融合算法,发挥两种模型的不同优势,实现两种方法的有效融合。融合识别模型既实现了对上下文语义的分析,又能够在样本库内容不够完备的情况下,尽可能避免漏报,有效提高识别准确率。
步骤2当步骤1条件不满足时,若神经网络模型识别为某个类别的概率值大于或等于80%,同时敏感词匹配识别结果为正常信息,模型融合算法输出为神经网络模型的最大概率值类别。步骤3当步骤2条件不满足时,若神经网络模型的识别结果的某个类别概率值大于或等于80%,同时敏感词匹配识别结果为违法违规或不良信息,模型融合算法同时输出神经网络模型的最大概率值类别和敏感词匹配识别结果。
【参考文献】:
期刊论文
[1]基于信息贫困理论的青少年信息行为浅析[J]. 刘丹. 时代金融. 2020(03)
[2]互联网数据在高校大数据平台中的应用研究[J]. 高显俊,黄儒乐. 科技资讯. 2019(36)
[3]基于深度学习的文本分类系统关键技术研究与模型验证[J]. 汪少敏,杨迪,任华. 电信科学. 2018(12)
[4]基于LSTM深度学习模型的中国电信官方微博用户情绪分析[J]. 蔡鑫,娄京生. 电信科学. 2017(12)
[5]深度学习:多层神经网络的复兴与变革[J]. 山世光,阚美娜,刘昕,刘梦怡,邬书哲. 科技导报. 2016(14)
[6]爬虫技术在WAP网站内容监测中的应用[J]. 邹一心,范海平. 电信科学. 2010(S1)
本文编号:3583053
【文章来源】:电信科学. 2020,36(05)
【文章页数】:6 页
【部分图文】:
传统文本类内容安全识别系统
在文本类内容安全识别中引入基于深度学习的神经网络模型,解决传统文本类内容安全识别方法中的上下文语义理解缺失的问题。神经网络模型虽然能够对文本信息进行上下文关联的语义理解分类[9],然而,由于神经网络模型的训练需要涵盖每个类别标签的大量样本数据,而违法违规和不良信息的类别标签存在时效性,会经常进行增删,在增加某一类别时,相应的敏感词库能够快速更新,而对应新类别标签的样本数据却不那么容易获得,所以无法做到样本库的及时有效更新。所以,仅依赖神经网络模型来识别违法违规和不良信息,存在漏报的风险。所以,应综合应用敏感词匹配和神经网络模型两种方法,结合神经网络和敏感词匹配两种方法的融合识别模型结构如图2所示。融合识别模型包含两种识别方法:敏感词匹配和神经网络模型,通过模型融合算法,发挥两种模型的不同优势,实现两种方法的有效融合。融合识别模型既实现了对上下文语义的分析,又能够在样本库内容不够完备的情况下,尽可能避免漏报,有效提高识别准确率。
步骤2当步骤1条件不满足时,若神经网络模型识别为某个类别的概率值大于或等于80%,同时敏感词匹配识别结果为正常信息,模型融合算法输出为神经网络模型的最大概率值类别。步骤3当步骤2条件不满足时,若神经网络模型的识别结果的某个类别概率值大于或等于80%,同时敏感词匹配识别结果为违法违规或不良信息,模型融合算法同时输出神经网络模型的最大概率值类别和敏感词匹配识别结果。
【参考文献】:
期刊论文
[1]基于信息贫困理论的青少年信息行为浅析[J]. 刘丹. 时代金融. 2020(03)
[2]互联网数据在高校大数据平台中的应用研究[J]. 高显俊,黄儒乐. 科技资讯. 2019(36)
[3]基于深度学习的文本分类系统关键技术研究与模型验证[J]. 汪少敏,杨迪,任华. 电信科学. 2018(12)
[4]基于LSTM深度学习模型的中国电信官方微博用户情绪分析[J]. 蔡鑫,娄京生. 电信科学. 2017(12)
[5]深度学习:多层神经网络的复兴与变革[J]. 山世光,阚美娜,刘昕,刘梦怡,邬书哲. 科技导报. 2016(14)
[6]爬虫技术在WAP网站内容监测中的应用[J]. 邹一心,范海平. 电信科学. 2010(S1)
本文编号:3583053
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3583053.html