基于分类模型监测电子商务违禁信息的研究与实现
发布时间:2017-04-15 07:09
本文关键词:基于分类模型监测电子商务违禁信息的研究与实现,由笔耕文化传播整理发布。
【摘要】:当今,随着互联网的飞速发展和普及,电子商务已经成为人们生产和生活中的重要媒介。诸如阿里巴巴、淘宝等大型电子商务平台每天都有数十万的交易发生,其中难免会产生许多不良和违禁信息。如果不能及时有效的处理,将严重危害电子商务的发展。因此,对于各种良莠不齐的信息,必须采取有效的审核过滤机制。但是,面对急剧膨胀的信息量,仅靠人工审核将变的越来越困难,迫切需要利用计算机自动信息过滤手段来提高违禁信息监测的效率。 本文针对电子商务违禁信息监测机制进行深入分析和研究,旨在利用文本分词、关键词提取和文本分类等相关信息检索技术来帮助实现违禁信息的自动识别,从而降低人工进行违禁信息审核的负担,提高电子商务信息发布的效率。本文认为,违禁信息的监测主要由违禁关键词监测和违禁内容监测两部分组成。其中,如何提取违禁关键词和识别违禁内容,将成为解决违禁信息监测的关键所在。因此,本文引入违禁类别关键词选择技术和文本分类模型作为违禁信息监测的基础。对于违禁关键词,本文根据特征选取和类别区分度,实现违禁词选取;对于违禁内容,本文采用基于文档结构特征的改进向量空间模型表示文档信息,以求达到更加理想的分类效果,并在支持向量机分类摸型的基础上实现了电子商务违禁内容的监测,然后以最大熵算法作为效果对比。 本文采集了大量真实的电子商务信息进行了违禁信息监测实验。结果表明,本文提出的以违禁关键词和违禁内容为基础的电子商务信息监测,对违禁信息的识别具有良好的效果,从而表明通过机器学习进行违禁信息自动监测具有可行性。
【关键词】:电子商务 违禁关键词 违禁内容监测 信息检索 改进向量空间模型 文本分类
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP393.09
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-16
- 1.1 引言10
- 1.2 互联网与电子商务10-13
- 1.2.1 互联网及其发展11-12
- 1.2.2 电子商务及其发展12-13
- 1.3 研究目的和意义13-14
- 1.4 本文工作和结构14-15
- 1.4.1 本文工作14
- 1.4.2 本文结构14-15
- 1.5 本章小结15-16
- 第2章 相关理论和工作16-29
- 2.1 信息检索与Web数据挖掘16-23
- 2.1.1 信息检索技术16-18
- 2.1.2 信息检索模型18-21
- 2.1.3 Web数据挖掘技术21-23
- 2.2 文本处理技术23-28
- 2.2.1 中文分词技术23-24
- 2.2.2 文本分类技术24-28
- 2.3 本章小结28-29
- 第3章 违禁关键字选择与匹配29-37
- 3.1 违禁关键词监测总体设计30-31
- 3.2 违禁关键词选取31-35
- 3.2.1 关键特征选择32-33
- 3.2.2 强类别区别词选择33-35
- 3.3 违禁关键词匹配35-36
- 3.4 本章小结36-37
- 第4章 基于分类的违禁内容监测37-48
- 4.1 违禁内容监测总体设计37-38
- 4.2 改进向量空间模型38-41
- 4.2.1 传统向量空间模型38-40
- 4.2.2 结合网页特征的向量空间模型40-41
- 4.3 违禁内容分类建模41-47
- 4.3.1 求解最优分类超平面41-46
- 4.3.2 违禁类别判断46-47
- 4.4 本章小结47-48
- 第5章 系统设计与效果评估48-63
- 5.1 系统总体设计框架48-49
- 5.2 实验数据49-54
- 5.2.1 数据源获取49-50
- 5.2.2 数据预处理50-52
- 5.2.3 分词停用词处理52-53
- 5.2.4 输入数据格式53-54
- 5.3 系统实现54-56
- 5.4 实验结果56-62
- 5.4.1 评价指标56
- 5.4.2 违禁关键词监测结果及讨论56-59
- 5.4.3 违禁内容监测结果及讨论59-62
- 5.5 本章小结62-63
- 第6章 总结与展望63-65
- 6.1 工作总结63-64
- 6.2 未来展望64-65
- 参考文献65-69
- 攻读硕士学位期间主要的研究成果69-70
- 致谢70
【共引文献】
中国期刊全文数据库 前10条
1 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
4 郭立萍;唐家奎;米素娟;张成雯;赵理君;;基于支持向量机遥感图像融合分类方法研究进展[J];安徽农业科学;2010年17期
5 冯学军;;最小二乘支持向量机的研究与应用[J];安庆师范学院学报(自然科学版);2009年01期
6 邹心遥;姚若河;;基于LSSVM的威布尔分布形状参数估计(英文)[J];半导体技术;2008年06期
7 邹心遥;姚若河;;基于LSSVM的小子样元器件寿命预测[J];半导体技术;2011年09期
8 李卓远,吴为民,王e,
本文编号:307882
本文链接:https://www.wllwen.com/jingjilunwen/dianzishangwulunwen/307882.html