基于语义特征和监督学习的广告评论识别方法
发布时间:2021-08-04 09:25
随着互联网的兴起与繁荣,人们的在线学习娱乐及交流变得非常便捷高效。计算机以及移动智能设备成为了人们工作和交流的主要工具之一。伴随着互联网电脑端及移动端用户数量的增长,热门网站的用户数量及日点击率也在迅速升高。作为全球最大的视频网站,YouTube拥有海量视频及数十亿活跃制作上传者及观看用户。由于每一位互联网用户均可以快速发表评论信息,加之YouTube实行了视频制作者鼓励措施,视频广告评论占比迅速提升,给视频上传者和常规观众带来许多烦扰,严重干扰了用户的正常评论与交流。基于词袋的传统垃圾广告检测算法通常从语句用词入手,具有特征维度高、模型复杂等特点,而且随着广告评论的升级也日益显示出不足。因此本文从语义理解的思路出发,结合前人工作和理论,提出了基于语义的广告评论检测方法。此方法首先对语句进行语义角色标注,提取语义特征,并手动提取常见广告评论的句式特征加入到特征集合,进行建模试验。通过实验反复验证,此方法有效地降低了训练数据的特征维数,并且达到了较高的检测率,在标注数据集多样化不足的情况下仍然能够保持一定的分类稳定性,因此具有一定的可行性。由于现实网络中,有标记的数据的获取比较难,因此本...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.1广告评论过滤流程图??7??
同时,在每一轮中加入一个新的弱分类器,直到错误率小于某一特定值或??者迭代次数达到达到指定的最大迭代次数。??Adaboost的算法流程如图2.?2所tk:??钓始化谒练数的V?_么_』??j?.??I?/>j?=?M..…u\?v.\.?i.w?-?—-?1.2……?八??_??-^i? ̄??t?V???I?权值分布的数据集逬:??训练.得到范V分类器;??'?:X?—?_??1?——:??汁筇(Ux丨^练数据tu.品分矣铅:)淹'??ct_?-?Pi?Gj?.x?y???-?V/《G「i.O?丈、);??:?r??j??V???i?1-^??=?r-Jog?—??j?-?cw??更新爾练致据集的权m:??MW“.A》??一?C^..?d)?=■?
含三层结点,而且除了输入层结点之外,其它结点均使用非线性激活函数。多层??前馈神经网络的每层神经元与下一层神经元全互连,神经元之间不存在同层连??接,也不存在跨层连接[16],如图2.?3所示。MLP使用误差逆传播(error??BackPropagation,BP)算法进行数据训练。??〇?〇?〇?n,??'\J?w??图2.3多层前馈神经网络结构示意图[15]??2.?4.?4主成分分析??成分分析是用来在数据中寻找“恰当”的特征的无监督方法[18]。主成分分析??(Principal?Component?Analysis,?PCA)是一种数据压缩和特征提取的多变量??统计分析技术,PCA的目标是在低维子空间去表示高维数据,使得在误差平方和??的意义下低维表示能够最好地描述原始数据[18]。??主成分分析的步骤如图2.?4所示:??12??
【参考文献】:
期刊论文
[1]基于LDA模型的博客垃圾评论发现[J]. 刁宇峰,杨亮,林鸿飞. 中文信息学报. 2011(01)
[2]基于贝叶斯方法和信息指纹的博客评论过滤[J]. 马如林,蒋华,张庆霞. 计算机工程与应用. 2008(24)
[3]一个基于语义分析的倾向性文档过滤系统[J]. 江宝林,刘永丹,金峰,葛家翔,胡运发. 计算机应用与软件. 2005(01)
硕士论文
[1]微博垃圾评论识别方法研究[D]. 兰丹媚.广西师范大学 2017
[2]基于语义的垃圾邮件过滤技术的研究[D]. 胡玮.重庆大学 2016
[3]基于写作风格学的作者识别技术研究[D]. 刘明勇.浙江大学 2013
[4]短文本语义过滤技术的研究[D]. 覃张华.北方工业大学 2008
[5]基于内容的垃圾邮件过滤研究[D]. 潘文锋.中国科学院研究生院(计算技术研究所) 2004
本文编号:3321447
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图2.1广告评论过滤流程图??7??
同时,在每一轮中加入一个新的弱分类器,直到错误率小于某一特定值或??者迭代次数达到达到指定的最大迭代次数。??Adaboost的算法流程如图2.?2所tk:??钓始化谒练数的V?_么_』??j?.??I?/>j?=?M..…u\?v.\.?i.w?-?—-?1.2……?八??_??-^i? ̄??t?V???I?权值分布的数据集逬:??训练.得到范V分类器;??'?:X?—?_??1?——:??汁筇(Ux丨^练数据tu.品分矣铅:)淹'??ct_?-?Pi?Gj?.x?y???-?V/《G「i.O?丈、);??:?r??j??V???i?1-^??=?r-Jog?—??j?-?cw??更新爾练致据集的权m:??MW“.A》??一?C^..?d)?=■?
含三层结点,而且除了输入层结点之外,其它结点均使用非线性激活函数。多层??前馈神经网络的每层神经元与下一层神经元全互连,神经元之间不存在同层连??接,也不存在跨层连接[16],如图2.?3所示。MLP使用误差逆传播(error??BackPropagation,BP)算法进行数据训练。??〇?〇?〇?n,??'\J?w??图2.3多层前馈神经网络结构示意图[15]??2.?4.?4主成分分析??成分分析是用来在数据中寻找“恰当”的特征的无监督方法[18]。主成分分析??(Principal?Component?Analysis,?PCA)是一种数据压缩和特征提取的多变量??统计分析技术,PCA的目标是在低维子空间去表示高维数据,使得在误差平方和??的意义下低维表示能够最好地描述原始数据[18]。??主成分分析的步骤如图2.?4所示:??12??
【参考文献】:
期刊论文
[1]基于LDA模型的博客垃圾评论发现[J]. 刁宇峰,杨亮,林鸿飞. 中文信息学报. 2011(01)
[2]基于贝叶斯方法和信息指纹的博客评论过滤[J]. 马如林,蒋华,张庆霞. 计算机工程与应用. 2008(24)
[3]一个基于语义分析的倾向性文档过滤系统[J]. 江宝林,刘永丹,金峰,葛家翔,胡运发. 计算机应用与软件. 2005(01)
硕士论文
[1]微博垃圾评论识别方法研究[D]. 兰丹媚.广西师范大学 2017
[2]基于语义的垃圾邮件过滤技术的研究[D]. 胡玮.重庆大学 2016
[3]基于写作风格学的作者识别技术研究[D]. 刘明勇.浙江大学 2013
[4]短文本语义过滤技术的研究[D]. 覃张华.北方工业大学 2008
[5]基于内容的垃圾邮件过滤研究[D]. 潘文锋.中国科学院研究生院(计算技术研究所) 2004
本文编号:3321447
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/3321447.html