当前位置:主页 > 文艺论文 > 广告艺术论文 >

医疗贴吧中广告的提取系统

发布时间:2017-08-25 22:09

  本文关键词:医疗贴吧中广告的提取系统


  更多相关文章: 贴吧 广告 特征选择 机器学习


【摘要】:“贴吧”是一个比较大的中文社交平台,目前,贴吧上推销广告泛滥,有些贴吧的页面上,甚至有一半的帖子都是推销广告。这些广告严重降低了贴吧的使用质量,不仅使用户在浏览这些无用的信息上浪费了大量时间,还严重阻碍了用户通过贴吧平台进行交流和获取有用信息。另外,一些虚假广告还有可能让人们对有价值信息的判断产生误导,把有利的信息和有害的信息混淆,特别是有关医药方面的广告,迎合了部分病人或家属治病的迫切心情,以致于他们相信了一些虚假广告,而耽误了病人接受正规的治疗。现在,贴吧上的很多广告还是依靠吧主人工处理,面对众多的广告,效率显然不高。针对贴吧上的广告问题,本文开发了“贴吧中广告的提取系统”,以实现智能化识别贴吧上的广告信息,在人们浏览帖子时,把那些最有可能是广告的信息反馈给用户,提醒用户哪些信息可以不用浏览,这样也可以规避一些虚假广告带来的网络诈骗。广告提取是信息提取的一个方向,信息提取是指从特定的信息流中将人们感兴趣的信息过滤出来,在本文中的信息提取可以转化为文本的分类问题。在本课题中广告提取系统的核心模块是广告文本的提取,所以本课题重点在于文本分类模块的设计与实现。文本分类系统实现的一般流程包括文本预处理、文本表示和分类模型的训练与测试。本文针对文本分类模型的实现所做的主要工作如下:(1)贴吧中文本数据的获取。编写了爬虫程序,实现了贴吧中文本数据的抓取。(2)训练样本和测试样本的获取。训练样本和测试样本都来自抓取的贴吧文本,训练样本共200篇,测试样本40篇,都分为广告文本和非广告文本两类。(3)对训练样本进行分词和去停用词。分词采用结巴分词工具实现,停用词表采用网上开源词表,针对本课题特点,对停用词表进行修正。(4)针对训练样本进行特征选择。提出了一个信息增益与基于logistic回归相结合的方法进行特征选择,并用Python语言实现。本文首先用信息增益的方法预选择特征,然后用基于logistic回归的特征递归消除的方法,边分类边特征选择,通过测试的分类效果确定最后保留多少个特征。(5)实现了向量空间模型的文本表示。将从200篇训练文本中选择出的特征词组成词集,根据词集将文档集转化成一个矩阵,矩阵的行数为文档的篇数,矩阵的列数为特征词集中特征的数量,矩阵中的每个数据为每个特征词在该篇文章中的权重,权重通过TF-IDF算法得到。每篇样本和它的类别数据分别存放在不同的文件夹中。(6)训练分类器选用决策树和朴素贝叶斯两种算法。通过对比两种分类算法的分类效率,本文最终选择决策树作为广告提取系统的分类算法。(7)分类结果。本广告提取系统测试40个样本的分类准确率达97.4%,可完全识别广告类样本,仍有一部分非广告类样本被判定为广告类样本。
【关键词】:贴吧 广告 特征选择 机器学习
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 1 绪论10-14
  • 1.1 本文研究意义10-11
  • 1.2 文本分类的背景及现状11-12
  • 1.3 本文主要研究内容12-13
  • 1.4 论文组织结构13-14
  • 2 系统模型的相关理论知识及技术14-18
  • 2.1 机器学习14
  • 2.2 PYTHON14-15
  • 2.3 网络爬虫15-17
  • 2.4 本章小结17-18
  • 3 文本分类模型18-36
  • 3.1 文本分类简介18-19
  • 3.2 实验数据的抓取与文本特征分析19-24
  • 3.2.1 实验数据的抓取19-23
  • 3.2.2 文本特征分析23-24
  • 3.3 文本预处理24-27
  • 3.3.1 去停用词24-25
  • 3.3.2 文本分词25-26
  • 3.3.3 特征选择26-27
  • 3.4 文本表示27-30
  • 3.4.1 布尔模型27
  • 3.4.2 概率模型27-28
  • 3.4.3 向量空间模型28-30
  • 3.5 分类算法30-31
  • 3.6 经典的统计学习分类方法31-34
  • 3.6.1 朴素贝叶斯算法31-32
  • 3.6.2 决策树分类算法32-34
  • 3.7 性能评价体系34
  • 3.8 本章小结34-36
  • 4 广告提取系统模型的设计与实现36-44
  • 4.1 广告提取系统的模型36
  • 4.2 预处理模块的设计与实现36-37
  • 4.3 文本表示模块的设计与实现37-39
  • 4.4 分类模块的设计与实现39-40
  • 4.5 信息增益与基于LOGISTIC回归的RFE算法相结合40-43
  • 4.6 本章小结43-44
  • 5 总结与展望44-46
  • 5.1.本文工作总结44
  • 5.2 后续工作的展望44-46
  • 参考文献46-50
  • 致谢50-51

【相似文献】

中国期刊全文数据库 前10条

1 吉小军,李世中,李霆;相关分析在特征选择中的应用[J];测试技术学报;2001年01期

2 贾沛;桑农;唐红卫;;一种改进的类别依赖型特征选择技术[J];计算机与数子工程;2003年06期

3 靖红芳;王斌;杨雅辉;徐燕;;基于类别分布的特征选择框架[J];计算机研究与发展;2009年09期

4 吴洪丽;朱颢东;周瑞琼;;使用特征分辨率和差别对象对集的特征选择[J];计算机工程与应用;2010年16期

5 杨艺;韩德强;韩崇昭;;基于排序融合的特征选择[J];控制与决策;2011年03期

6 李云;;稳定的特征选择研究[J];微型机与应用;2012年15期

7 钱学双;多重筛选逐步回归特征选择法及其应用[J];信息与控制;1986年05期

8 宣国荣;柴佩琪;;基于巴氏距离的特征选择[J];模式识别与人工智能;1996年04期

9 范劲松,方廷健;特征选择和提取要素的分析及其评价[J];计算机工程与应用;2001年13期

10 王新峰;邱静;刘冠军;;基于特征相关性和冗余性分析的机械故障特征选择研究[J];中国机械工程;2006年04期

中国重要会议论文全文数据库 前10条

1 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

2 李长升;卢汉清;;排序学习模型中的特征选择[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

3 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 倪友平;王思臣;马桂珍;陈曾平;;分支界定算法在低分辨雷达飞机架次判别中的应用[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年

5 李泽辉;聂生东;陈兆学;;应用多类SVM分割MR脑图像特征选择与优化的实验研究[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年

6 蒙新泛;王厚峰;;主客观识别中的上下文因素的研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

7 万京;王建东;;一种基于新的差异性度量的ReliefF方法[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

8 范丽;许洁萍;;基于GMM的音乐信号音色模型研究[A];第四届和谐人机环境联合学术会议论文集[C];2008年

9 陈友;戴磊;程学旗;;基于MRMHC-C4.5的IP流分类[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

10 申f;杨宏晖;袁帅;;用于水声目标识别的互信息无监督特征选择[A];第三届上海——西安声学学会学术会议论文集[C];2013年

中国博士学位论文全文数据库 前10条

1 李静;高维数据交互特征选择和分类研究[D];燕山大学;2015年

2 刘风;基于磁共振成像的多变量模式分析方法学与应用研究[D];电子科技大学;2014年

3 王石平;粗糙拟阵及其在高维数据降维中的应用研究[D];电子科技大学;2014年

4 代琨;基于支持向量机的网络数据特征选择技术研究[D];解放军信息工程大学;2013年

5 王爱国;微阵列基因表达数据的特征分析方法研究[D];合肥工业大学;2015年

6 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年

7 张明锦;基于特征选择的多变量数据分析方法及其在谱学研究中的应用[D];华东理工大学;2011年

8 高青斌;蛋白质亚细胞定位预测相关问题研究[D];国防科学技术大学;2006年

9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年

10 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年

中国硕士学位论文全文数据库 前10条

1 张金蕾;蛋白质SUMO化修饰位点预测的数据挖掘技术研究[D];西北农林科技大学;2015年

2 史德飞;自适应特征选择在线瓷砖分类系统[D];南京大学;2014年

3 马铮;网络流量特征分析与特征选择[D];北京邮电大学;2013年

4 徐冬;基于特征选择的入侵检测方法研究[D];吉林大学;2016年

5 郑芳泉;稀有数据的集成特征选择与入侵检测[D];福州大学;2013年

6 徐子伟;基于分步特征选择和组合分类器的电信客户流失预测模型[D];中国科学技术大学;2016年

7 肖丽莎;半监督特征选择关键技术研究[D];西南交通大学;2016年

8 李昌;概率特征选择分类向量机[D];中国科学技术大学;2016年

9 黄春虎;基于ReliefF-FCBF组合的入侵特征选择算法研究[D];新疆大学;2016年

10 谭蕴琨;面向稀疏数据的在线学习特征选择方法研究[D];华南理工大学;2016年



本文编号:738388

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/guanggaoshejilunwen/738388.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7dcbd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com