Web广告图片过滤技术研究与实现
本文选题:广告图片过滤 + SVM ; 参考:《北京邮电大学》2017年硕士论文
【摘要】:自上世纪90年代互联网进入中国至今,我国互联网普及率已达到51.2%,网民规模已达到7.1亿,越来越多的人通过互联网发布或者获取信息。这么庞大的群体中,自然就蕴含了巨大的商机。Web网页上充斥着越来越多的广告,严重影响着大众对于有效信息的获取。而且进入Web2.0时代以来,图片由于具有更好的视觉效果,可以以更加简洁的形式蕴含更加丰富的内容特征,被越来越多的用于广告信息的传播,严重影响了大众的工作效率;目前针对广告图片的过滤研究已有很多,但多数研究都是通过研究图片的具体内容进行分类识别,虽然准确率较高,但图像识别难度较大,算法复杂。鉴于上述情况,本文对如何高效便捷的进行Web页面的上广告图片过滤进行了研究。所做工作如下:1.对广告图片的特征进行了归纳,分析了目前对于图片特征选择的优势与不足,并结合目前Web广告推崇个性化以用户兴趣为导向的特征,从兴趣、文本、链接、属性四个方面对Web广告图片进行特征提取。结合SVM机器学习算法提出了一个基于DOM属性的广告图片过滤模型。2.深入挖掘HTML文本的DOM属性,结合广告图片的特征以及目前基于用户兴趣的广告推荐情况,研究了基于DOM属性的广告图片过滤技术,避开了对图像内容的识别,提出了基于兴趣、文本、链接、属性四个方面共11个特征进行提取的方法,通过仿真实验,从准确率、精确率、召回率、F1测度四个方面验证了该模型的有效性。3.在对文本特征进行提取时,研究了目前常用的关键字匹配算法,对比了各关键字算法的优劣,考虑到本文所需匹配内容较为明确,选择了正向最大匹配算法进行关键字过滤。4.研究了 HTTP透明代理技术以及内容过滤技术,搭建了一个基于Squid-ICAP架构的基于DOM属性的广告图片过滤系统,详细介绍了系统的设计、关键功能模块的设计与实现。并对系统的过滤效果进行了验证。
[Abstract]:Since the entry of the Internet into China in the 1990s, China's Internet penetration rate has reached 51.2%, the scale of Internet users has reached 710 million, more and more people publish or obtain information through the Internet. In such a large group, there is a huge business opportunity. Web pages are filled with more and more advertisements, which seriously affect the public access to effective information. And since entering the Web2.0 era, because of the better visual effect, the picture can contain more and more content features in a more concise form, which is more and more used in the dissemination of advertising information, seriously affecting the efficiency of the public; At present, there are a lot of researches on image filtering, but most of them are classified and recognized by studying the specific content of the image. Although the accuracy is high, the image recognition is difficult and the algorithm is complex. In view of the above situation, this paper studies how to filter advertising images on Web pages efficiently and conveniently. The work to be done is as follows: 1. This paper sums up the features of advertising pictures, analyzes the advantages and disadvantages of feature selection for images at present, and combines the current Web advertising with personalized user-oriented features, from interest, text, links, etc. Attribute four aspects of Web advertising image feature extraction. Combining with SVM machine learning algorithm, this paper proposes an advertisement picture filtering model. 2. 2 based on DOM attribute. This paper deeply excavates the DOM attribute of HTML text, combines the features of advertisement picture and the current situation of advertisement recommendation based on user's interest, studies the technology of advertisement picture filtering based on DOM attribute, avoids the recognition of image content, and puts forward the interest based on it. The method of extracting 11 features from four aspects of text, link and attribute is presented. The validity of the model is verified from four aspects: accuracy, accuracy, recall rate and F1 measure. In the extraction of text features, the common keyword matching algorithms are studied, and the advantages and disadvantages of each keyword matching algorithm are compared. Considering the clear matching content needed in this paper, the forward maximum matching algorithm is chosen to filter the keywords. 4. The HTTP transparent proxy technology and content filtering technology are studied. An advertisement image filtering system based on DOM attribute based on Squid-ICAP architecture is built. The design of the system and the design and implementation of key function modules are introduced in detail. The filtering effect of the system is verified.
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP391.41
【参考文献】
相关期刊论文 前10条
1 潘心宇;陈长福;刘蓉;王美清;;基于网页DOM树节点路径相似度的正文抽取[J];微型机与应用;2016年19期
2 李兆翠;朱振方;许红云;;基于SVM的三重网页过滤方法研究[J];软件导刊;2014年11期
3 周立前;胡柳;李瑞;黄丽君;胡盛龙;文志强;;基于权重策略的不良图像识别[J];中南大学学报(自然科学版);2013年11期
4 谷文成;柴宝仁;韩俊松;;基于支持向量机的垃圾信息过滤方法[J];北京理工大学学报;2013年10期
5 段晓丽;王宇;谷静;刘玮楠;;基于正文特征及网页结构的主题网页信息抽取[J];计算机工程与应用;2012年30期
6 罗宁;徐俊刚;郭洪韬;;基于Lucene的中文分词模块的设计和实现[J];电子技术;2012年09期
7 李霞;蒋盛益;;基于DOM树及行文本统计去噪的网页文本抽取技术[J];山东大学学报(理学版);2012年03期
8 李明;;动态复杂的威胁需要实时网络安全防御[J];网络安全技术与应用;2011年05期
9 罗桂琼;费洪晓;戴弋;;基于反序词典的中文分词技术研究[J];计算机技术与发展;2008年01期
10 顾潇华;郭军城;;网页超链抓取及自动分类技术实现[J];河北大学学报(自然科学版);2007年01期
相关硕士学位论文 前7条
1 张高祥;基于SVM的文本信息过滤算法研究[D];吉林大学;2016年
2 黄攀;基于深度学习的自然场景文字识别[D];浙江大学;2016年
3 靳佩瑶;基于内容的网页文本信息过滤技术研究[D];西南石油大学;2015年
4 顾大伟;基于代理的敏感邮件监控技术研究[D];哈尔滨工业大学;2015年
5 柳伯超;基于内容的不良图像识别研究[D];山东师范大学;2007年
6 周文刚;基于语义的信息过滤算法及其应用[D];北方工业大学;2006年
7 叶志刚;SVM在文本分类中的应用[D];哈尔滨工程大学;2006年
,本文编号:1775453
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1775453.html