面向虚假新闻识别的主动学习算法研究与应用

发布时间：2023-06-08 22:40

　　信息化时代方便了人们通过各种渠道获取新闻,同时也使虚假新闻以前所未有的速度快速传播着。虚假新闻的发布者一般持有特定的目的,如影响舆论或欺骗大众。人为识别虚假新闻需要依据大量的事实,代价十分昂贵,机器学习方法的引入为虚假新闻的识别提供了有效途径。传统的监督学习方式往往需要足够数量合格的正反实例,而对于虚假新闻来说,建立大型的虚假新闻数据集是相当困难的,并且由于虚假新闻表现形式的多样性,即使搜集大量的证据,也未必能区分一条新闻的真假。因此研究能够通过少量训练集识别虚假新闻的机制是必要的。此外,很多研究者对于能否通过文本特征识别虚假新闻存疑。针对上述问题,本文从主动学习和虚假新闻文本特征提取这两个方面展开了研究,本文主要贡献如下:(1)针对虚假新闻危害的严重性,本文研究了基于内容的虚假新闻识别。在新闻发布之前,社交媒体平台根据新闻文本特征判断新闻的真实性,有利于在源头上制止部分虚假新闻的传播。文中说明了基于内容识别的相关原因,并详细分析了真假新闻之间的文本特征区别。(2)针对初始集质量对分类器的重要性,以及在当前新闻表示下,新闻实例分布的复杂性,提出基于中心点选择的初始集算法,设计不同的类中...

【文章页数】：79 页

【学位级别】：硕士

【文章目录】：
致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 本文主要研究内容
    1.4 本文组织结构
2 相关工作
    2.1 基于内容的虚假新闻识别
        2.1.1 相关研究
        2.1.2 真假新闻文本特征区别
        2.1.3 文本特征提取
    2.2 主动学习
        2.2.1 相关研究
        2.2.2 主动学习框架
        2.2.3 初始集选择和不确定性采样
    2.3 本章总结
3 基于中心点选择的初始集算法
    3.1 初始集算法描述
    3.2 类中心点的确定
        3.2.1 类中心点策略描述
        3.2.2 k中心点策略
    3.3 初始集选取策略
        3.3.1 基于聚类的初始集选择机制
        3.3.2 基于k中心点的初始集选择机制
    3.4 基于初始集选择的主动学习算法
    3.5 本章总结
4 基于异常点处理的主动学习算法
    4.1 识别算法描述
    4.2 学习引擎算法的选择
    4.3 选择引擎异常点处理关键策略
        4.3.1 均值处理
        4.3.2 相似性处理
    4.4 本章总结
5 实验设计与结果分析
    5.1 数据集描述
    5.2 实验评价指标
    5.3 Basic AL与其他经典分类方法对比
        5.3.1 实验设计
        5.3.2 实验结果及分析
        5.3.3 其他因素影响
    5.4 初始集算法对比
        5.4.1 实验设计
        5.4.2 实验结果及分析
        5.4.3 其他因素影响
    5.5 异常点算法对比
        5.5.1 实验设计
        5.5.2 Mean AL实验结果及分析
        5.5.3 SimAL实验结果及分析
        5.5.4 加入初始集算法的异常点处理实验结果及分析
    5.6 本章总结
6 总结与展望
    6.1 结论
    6.2 未来期望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集

本文编号：3832636

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/xinwenchuanbolunwen/3832636.html

上一篇：喜马拉雅FM会员用户持续付费意愿影响因素探究
下一篇：从同业分析中看都市报新的发展路径

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|