当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的内容处理与监控系统的设计与实现

发布时间:2020-05-20 03:06
【摘要】:现如今,随着移动产品的发展与普及,人们对内容资讯类产品的需求迫切度与日俱增,与之相对的便是内容量的巨大提升,给编辑以及审核人员带来了前所未有的压力。为了适应大数据时代的需求,项目组决定研发一套基于机器学习的内容处理与监控系统,以此来完成内容的自动化过滤与分发,从而为公司的多种内容形态提供高效化、智能化的数据处理流程。论文讲述的是项目组针对当前信息化时代背景,结合当前具有实际应用潜力的机器学习理论设计而成的内容处理与监控系统。文中首先介绍了项目的背景及国内外发展现状,并对整个系统进行功能性需求和非功能性需求的需求分析。之后根据需求分析设计系统架构、划分功能模块、设计系统数据库。接着对具体模块进行详细设计与实现。最后对系统进行测试与验证以确保达到上线要求。笔者独立建立了模块中用到的机器模型,并通过优化算法及损失函数等对模型进行了调整优化。之后测试并验证了机器模型以及核心功能模块,以确保系统达到上线标准。除此以外,笔者参与了系统核心的三大模块的开发,分别为:内容处理(内容过滤与建模)、内容审核、内容监控。在内容过滤中,主要通过N-Gram语言模型对字符进行匹配,利用决策树及Center-Loss函数对模型进行参数的调优;在内容建模中,利用SVM(Support Vector Machine,支持向量机)算法与GRU(Gated Recurrent Unit,门循环单元)模型对数据进行初步的分类与监督,根据不同的内容类型分别采用了 TEXT-CNN以及FAST-RCNN模型进行划分;在内容监控中,为了得到实时数据结果,采用Spark实时框架及MemCache缓存等技术,以此达到监控的性能要求。目前该系统已上线,对于图文的平均判定精确率达到了 95%以上,对于视频的平均判定精确率达到了 80%以上。内容处理速度控制在单篇平均耗时在120s内,实时监控查询速度控制在2s内。
【图文】:

机器学习,机械学习,归纳学习,学习模型


在该理论中所应用的学习策略主要可分为4类——通过机械学习、通过传播逡逑学习、通过归纳学习和通过样本学习。一般较为复杂的学习模型,系统的能力也逡逑较强。如图2-1所示:逡逑/邋classification邋r-—scikit-learn逡逑/逦\逦—:邋4邋'\逦algorithm邋cheat-sheet逡逑i逦,邋i逦I邋&GD邋I邋\逦/邋^逦:■'邋\逦/逡逑\邋U如、f邋..逦f逦regression逦、逡逑\邋m邋,逡逑\邋一2逦|^邋:3I;邋,/逡逑.逦dn-nens.onal.tv邋';逡逑;;?f逦'邋reduction逡逑图2_1机器学习概述图逡逑Figure邋2-1邋Overview邋of邋Machine邋Learning邋Diagram逡逑5逡逑

监督学习,标记数据,机器学习


与其通过程序直接去执行特定的任务,不如让计算机自己“学习”出一逡逑类特定的算法来完成这项任务。有三种主要类型的机器学习,分别是:监督学习、逡逑非监督学习和强化学习,每一种类型的学习方式都有其优势和劣势。如图2-2所示:逡逑^T=:,

本文编号:2671932

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2671932.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f38a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com