当前位置:主页 > 科技论文 > 自动化论文 >

基于贝叶斯算法的垃圾弹幕过滤方法的研究

发布时间:2020-06-13 21:12
【摘要】:近年来,随着互联网技术的不断发展,观看直播的休闲娱乐方式广受青少年欢迎。直播最吸引人的地方在于其超强的实时性和互动性,在直播间的用户可以通过发送弹幕的方式和直播间其他用户进行交流。所谓“弹幕”是一种新型的用户评论展示方式,它不像原始的评论均放在讨论区展示,弹幕评论会从直播画面上划过,使用户具有很强的参与感。正是因为弹幕文本的实时性,一条弹幕文本信息可以快速地传递给直播间所有的用户。所以,如果直播弹幕中存在大量包含侮辱性语言和不良信息的垃圾弹幕,则会影响用户的观看体验,造成用户流失。传统的处理垃圾弹幕问题的方法主要是设置关键字和人工审阅两种,效率和正确率很难得到保障。因此,考虑将文本分类算法运用到弹幕文本的分类上,使得服务器能够自动分类出垃圾弹幕并进行过滤,避免推向直播间所有用户,以此提高直播间弹幕质量,达到提高直播观看体验的目的。朴素贝叶斯算法是一种常见的文本分类算法,是通过计算先验概率和条件概率,再利用贝叶斯定理转换求解后验概率的过程。基于贝叶斯的垃圾弹幕过滤算法在贝叶斯算法的基础上,结合弹幕文本所具有的平台相关性特点,利用用户平台等级特征来辅助后验概率对弹幕文本进行分类。另外,结合弹幕文本所具有的连续相似性特点,设计了一种基于LRU的弹幕分词和分类结果的键值对缓存,减少算法对于连续几条相似弹幕的重复分类计算问题,优化算法过程。最后本文通过爬虫算法爬取直播平台真实的弹幕数据,并利用该数据设计测试。进行实现和测试后,通过选定的算法评价指标,验证了本文所提到的基于贝叶斯算法的垃圾弹幕过滤方法的有效性。
【图文】:

流程图,文本分类,弹幕,流程


华 中 科 技 大 学 硕 士 学 位 论 文垃圾弹幕过滤问题的核心是要区分开正常弹幕和垃圾弹幕,弹幕同邮件和短信,也是由汉子,字母,,符号,数字等组合而成的具有一定意义的文本对象,所以弹幕的判断问题归根到底还是文本分类的问题。文本分类是由计算机按照一定类体系或标准,对文本内容所属类别进行自动预测的方法[32]。想要判断一条弹否是垃圾弹幕,首先要对该条弹幕去除所有与文本内容无关的无效标记,如一些符号,数字和特殊符号,留下弹幕文本中的纯文字数据。然后进行中文分词,由幕中可能会出现一些如“的”“啊”等一些虚词或是连词,所以对分出来的词要停用词过滤,留下一些和语义关联较大的词。最后通过剩下的词所表现的特征,分类算法对该条弹幕进行分类,判断其是属于正常弹幕还是垃圾弹幕。文本分类程图如图 2-1 所示。

近邻算法,特征距离


arest Neighbor)是一种采用测量不同特征之间在一个已经训练好的样本数据集合,并且该样本新输入一个未知类别的对象时,将新数据所有的比较,然后提取出样本中与新数据特征距离最多数属于哪一类则把新数据分到该类[33]。类场景如图 2-2 所示,已经有一个样本数据集在有一个新的圆形数据想要判断其是属于三角本集合里的其他数据的特征距离用两个数据之形特征距离最近的是 2 个三角形和 1 个矩形, k 选择 5 的话,与圆形特征距离最近的是 2 个三类成矩形。因此可以看出 k 近邻算法对 k 值非果。另外,每当有一个新数据需要进行分类时的特征距离,计算量较大。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.3;TP18

【相似文献】

相关期刊论文 前10条

1 张曜多;;弹幕视频的流行研究[J];传媒国际评论;2015年00期

2 王宗楚;;试论弹幕语言对网络剧和电视剧的影响[J];兰州教育学院学报;2019年12期

3 朱士蓉;薛赵红;;网络学习视域下弹幕用户的动机及其行为研究[J];宿州学院学报;2019年11期

4 葛承志;;鉴定好剧,请看第三集“弹幕”[J];上海广播电视研究;2019年03期

5 周晓辉;;好弹幕软件在形势与政策课堂教学中的应用研究[J];当代教育实践与教学研究;2020年02期

6 柯雪;赵楠;彭韧;;移动阅读应用中“文本弹幕”的交互体验研究[J];科技传播;2020年02期

7 熊晓庆;高尚;;经典影视剧的沦陷:弹幕狂欢下的审美嬗变及伦理反思[J];电影文学;2018年22期

8 高沛伦;;弹幕视频特性与受众互动行为探析[J];传播与版权;2018年11期

9 贺成;;别让弹幕把荧屏搞得乌烟瘴气[J];声屏世界;2018年11期

10 孙振虎;赵甜;;参与式文化视角下的弹幕视频分析[J];当代传播;2018年06期

相关会议论文 前9条

1 孙佳山;林品;高寒凝;;弹幕——数码时代的文化消费与媒介使用[A];青年文艺论坛(第五十九期):弹幕:数码时代的文化消费与媒介使用[C];2016年

2 刘nrnr;张德胜;黄元汛;;网络体育弹幕手的参与特征及平台管理研究[A];第十一届全国体育科学大会论文摘要汇编[C];2019年

3 刘灵豫;王军锋;;弹幕视频观看体验要素设计研究[A];工业设计研究(第六辑)[C];2018年

4 杨芬霞;贺荟蓉;;弹幕视频网站侵权问题思考——以哔哩哔哩网为例[A];传媒法与法治新闻研究[C];2016年

5 许新芝;黄冠;;“互联网+”视阈下的高校课堂参与模式构建——以弹幕为手段的课堂参与模式研究[A];传媒法与法治新闻研究[C];2016年

6 段朝辉;陈莹莹;罗Z^梅;洪建中;;在线视频课程学习中的互动模式与个性化研究(2):弹幕、弹题与反馈和论坛研究[A];第二十届全国心理学学术会议--心理学与国民心理健康摘要集[C];2017年

7 吴年继;;从哔哩哔哩弹幕评论看天文科学传播的三种视频形态[A];中国科普理论与实践探索——第二十三届全国科普理论研讨会论文集[C];2016年

8 ;2018年世界杯盘点——球迷的理性与狂欢 2018年[A];艾瑞咨询系列研究报告(2018年第7期)[C];2018年

9 雷静;;不忘初心 走好新时代长征路[A];中国教育干部网络学院——高校学生党支部书记培训成果汇编(2019)[C];2019年

相关重要报纸文章 前10条

1 北京外国语大学汉语言文字学专业硕士研究生 刘美丽;“弹幕”来袭[N];语言文字报;2020年

2 子知;对弹幕“先审后播”不能小视[N];中国文化报;2019年

3 本报记者 韩丹东 本报实习生 李恋洁;先审后播有利于规范弹幕内容[N];法制日报;2019年

4 记者 徐颢哲;短视频弹幕将实行“先审后播”[N];北京日报;2019年

5 本报记者 徐佩玉;弹幕语言,多元也要有规范[N];人民日报海外版;2019年

6 记者 魏蔚;B站、A站、斗鱼、虎牙暂停弹幕功能[N];北京商报;2019年

7 本报记者 钟菡;“弹幕”透露爆款?读影评成为普遍兴趣[N];解放日报;2019年

8 IT时报记者 李蕴坤;在弹幕“大佬”B站上玩游戏[N];IT时报;2019年

9 陈曦;弹幕教学让学生成为课堂的主人[N];科技日报;2019年

10 蒋威;我看学生发“弹幕”[N];兵团日报(汉);2019年

相关博士学位论文 前3条

1 段朝辉;活动理论视角下在线视频学习中不同学习风格者的交互活动模式及作用机制[D];华中师范大学;2018年

2 吕广奕;面向用户生成数据的深度语义表征技术与应用[D];中国科学技术大学;2019年

3 何明;面向在线视频弹幕数据的挖掘方法研究[D];中国科学技术大学;2018年

相关硕士学位论文 前10条

1 武晓玲;娱乐类网络脱口秀弹幕研究[D];黑龙江大学;2019年

2 郑展;基于贝叶斯算法的垃圾弹幕过滤方法的研究[D];华中科技大学;2019年

3 郭丝;哔哩哔哩网站特色研究[D];黑龙江大学;2019年

4 胡兴;青年亚文化视角下的弹幕研究[D];江西师范大学;2019年

5 潘天敏;弹幕在旅游社交服务中的应用与设计[D];上海交通大学;2016年

6 罗骁;基于分布式爬虫的用户评论分析系统[D];南京邮电大学;2018年

7 陈格;青年亚文化视角下的弹幕视频探析[D];北京印刷学院;2019年

8 张思渝;基于弹幕的翻转课堂模式重构研究[D];云南大学;2018年

9 段炼;面向弹幕文本的情感分析研究[D];重庆邮电大学;2019年

10 吴燕;互动视角下弹幕视频网站研究[D];辽宁大学;2019年



本文编号:2711750

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2711750.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1190a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com