基于WEB的某社交网站SPAM评估系统的设计与实现
发布时间:2017-04-21 12:12
本文关键词:基于WEB的某社交网站SPAM评估系统的设计与实现,由笔耕文化传播整理发布。
【摘要】:随着网络的大规模普及,国内外涌现出了大量的社交网站平台,其中以face book、微博、百度贴吧、天涯社区等为代表。这些网站有一个共同点,那就是都属于UGC (User Generated Content)—用户原创内容类型的网站平台。这类网站上内容主要是依赖用户创造生成,每一个网站用户都可以随心所欲的生成发表自己的内容。利用这种产出方式,这类网站的内容会迅速膨胀,形成一个多、广、专的局面,有力地促进了知识的积累和传播。 以目前全球最大的中文社区网站-百度贴吧为例,百度贴吧经过10年的发展,已经拥有几亿的注册用户,创建的贴吧数量有上百万个,每天新增的话题贴近亿。贴吧有如此巨大的用户群体,并且由于属于UGC类社交网站,每一个用户都可以生成自己个性化的内容,所以在有效进行知识传播的同时,不可避免的会出现大量不健康(色情、暴力、反动)、广告传销、虚假欺诈等令用户反感、侵害正常用户权益甚至违法犯罪的垃圾内容。在互联网行业,人们称这些垃圾内容为‘'spam"或者“作弊内容”;那些在网上发布这些spam的人被称为“作弊者”;如果一个正常用户在浏览网页的过程中,看到了这些垃圾内容,那么我们称用户的这次浏览行为“被污染”了。 为了尽可能既快又准的从上亿条的数据中发现识别出垃圾内容,以保证网站的正常用户在使用网站服务时能更快更便捷的获取自己的所求,就需要能及时准确地掌握这些垃圾内容在网站上所占的比例(作弊率)、对正常用户的影响程度(污染率)以及作弊者所发垃圾内容的共同特征和所属类型。这样才能以很小的人力成本及时高效地清理掉这些垃圾内容,减少其对正常用户的负面影响,提高用户的产品体验。 目前,以贴吧为例,人工评估一次作弊率大约需要1天/人次,包括评估数据的获取,人工审查数据,手工计算作弊率。用户污染率更是无法评估。而统计一次垃圾内容的共同特征(如带有文字广告、图片等),再将其分类,这个过程更是需要几天的时间。这种评估方式不仅繁琐耗时耗人力,而且评估统计出的结果准确率不高,也不能保证时效性,致使工程师们不能及时准确地掌握作弊率和新出现的各种垃圾内容的特征类别,从而不能及时高效地调整应对策略清除这些垃圾内容数据。即使统计出来了,作弊者也已经发布了大量的垃圾内容到网站上,已经对正常用户造成了不可挽回的身心权益伤害,大大影响了正常用户的体验,有可能导致正常用户的流失。 为了解决评估周期长、成本高、准确率低的问题,本论文基于WEB设计并实现一个可快速准确的评估出各项指标的贴吧SPAM评估系统。本系统采用B/S模式,使用MVC开发框架结构,基于PHP+Mysql+Apache+Linux设计并实现一个集数据抽取、评估功能、统计报表于一体的系统。 本论文设计实现的评估系统,将会大大简化人工评估的繁琐过程,缩短评估的周期,将评估周期由原来的2天缩短为2小时/人次。系统实现了评估数据获取和统计的自动化,评估的各项指标可由报表自动生成,同时保证了评估统计结果的准确性。为工程师及时掌握SPAM情况、制定相应的策略手段清理垃圾内容提供准确完备的数据支持。
【关键词】:垃圾内容 评估系统 作弊率 PV污染率
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092
【目录】:
- 摘要8-10
- ABSTRACT10-12
- 第1章 绪论12-18
- 1.1 SPAM评估系统开发背景12-13
- 1.2 当前现状13-14
- 1.3 解决的主要问题14-16
- 1.4 本文的主要工作16-17
- 1.5 论文的组织结构17-18
- 第2章 SPAM评估系统需求分析18-27
- 2.1 SPAM评估系统概述18-19
- 2.1.1 SPAM评估系统项目背景18
- 2.1.2 SPAM评估系统项目说明18-19
- 2.2 SPAM评估系统项目目标和需解决的问题19-20
- 2.2.1 SPAM评估系统项目目标19
- 2.2.2 开发SPAM评估系统项目需解决的问题19-20
- 2.3 SPAM评估系统项目需求问题描述20-27
- 2.3.1 项目需求获取来源20
- 2.3.2 项目功能性需求20-25
- 2.3.3 项目非功能性需求25-27
- 第3章 SPAM评估系统总体设计27-31
- 3.1 SPAM评估系统设计原则和目标27
- 3.2 SPAM评估系统整体架构设计27-28
- 3.3 SPAM评估系统功能架构设计28-31
- 3.3.1 SPAM评估系统功能组成28-29
- 3.3.2 SPAM评估系统功能模块划分29-31
- 第4章 SPAM评估系统详细设计31-47
- 4.1 SPAM评估系统建模31-34
- 4.1.1 SPAM评估系统整体模型结构设计31-32
- 4.1.2 SPAM评估系统逻辑分层结构设计32-34
- 4.2 SPAM评估系统数据库设计34-39
- 4.2.1 SPAM评估系统数据库E-R图设计34-35
- 4.2.2 SPAM评估系统数据库表结构设计35-39
- 4.3 SPAM评估系统功能模块详细设计39-47
- 4.3.1 SPAM评估系统数据获取模块设计39-41
- 4.3.2 SPAM评估系统数据评估模块设计41-44
- 4.3.3 SPAM评估系统统计分析模块设计44-47
- 第5章 SPAM评估系统实现47-61
- 5.1 SPAM评估系统开发工具和部署环境47-50
- 5.1.1 SPAM评估系统开发工具47-50
- 5.1.2 SPAM评估系统部署环境50
- 5.2 SPAM评估系统代码结构50-53
- 5.3 SPAM评估系统总体实现效果53-61
- 第6章 总结61-62
- 参考文献62-64
- 致谢64-65
- 攻读学位期间取得的科研成果65-66
- 学位论文评阅及答辩情况表66
【参考文献】
中国期刊全文数据库 前6条
1 李步升;胡静芳;;基于Web的高校运动会管理信息系统设计与实现[J];电脑编程技巧与维护;2011年16期
2 刘永增;张晓景;李先毅;;基于Hadoop/Hive的web日志分析系统的设计[J];广西大学学报(自然科学版);2011年S1期
3 谭力;杨宗源;谢瑾奎;;Ajax技术的数据响应优化[J];计算机工程;2010年07期
4 仰燕兰;金晓雪;叶桦;;ASP.NET AJAX框架研究及其在Web开发中的应用[J];计算机应用与软件;2011年06期
5 王云;郭外萍;陈承欢;;Web项目中的SQL注入问题研究与防范方法[J];计算机工程与设计;2010年05期
6 刘华星;杨庚;;HTML5——下一代Web开发标准研究[J];计算机技术与发展;2011年08期
本文关键词:基于WEB的某社交网站SPAM评估系统的设计与实现,由笔耕文化传播整理发布。
,本文编号:320323
本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/320323.html