基于内容的搜索引擎垃圾网页检测
本文关键词:基于内容的搜索引擎垃圾网页检测,由笔耕文化传播整理发布。
第2 6卷第 1 1期 2 0 0 9年 1 1月
计算机应用与软件 C o m p u t e r A p p l i c a t i o n s a n dS o f t w a r e
V o l ? 2 6N o . 1 1 0 9 N o v . 2 0
基于内容的搜索引擎垃圾网页检测
贾志洋1 李伟伟1 张海燕2
1
( 云南师范大学计算机科学与信息技术学院 云南 昆明 6 5 0 0 9 2 )
2
( 中国石油大庆石化公司信息中心 辽宁 大庆 1 6 3 7 1 4 )
摘 要 有些网页为了增加访问量, 通过欺骗搜索引擎, 提高在搜索引擎的搜索结果中的排名, 这些网页被称为“ 搜索引擎垃圾 网页” 或“ 垃圾网页” 。将搜索引擎垃圾网页的检测看成一个分类问题, 采用 C 4 . 5分类算法建立决策树分类模型, 将网页分成正常 网页和垃圾网页两类。实验表明我们的分类模型可以有效地检测搜索引擎垃圾网页。 关键词 搜索引擎 垃圾网页 垃圾网页检测 决策树 C 4 . 5分类算法
C O N T E N T ? B A S E DS P A M WE BP A G ED E T E C T I O NI NS E A R C HE N G I N E
1 1 2 J i aZ h i y a n g L i We i w e i Z h a n gH a i y a n
1
( S c h o o l o f C o m p u t e r S c i e n c e a n dI n f o r m a t i o nT e c h n o l o g y , Y u n n a nN o r m a l U n i v e r s i t y , K u n m i n g 6 5 0 0 9 2 , Y u n n a n , C h i n a )
2
( I n f o r m a t i o nC e n t e r , P e t r o C h i n aD a q i n gP e t r o c h e m i c a l C o m p a n y , D a q i n g 1 6 3 7 1 4 , L i a o n i n g , C h i n a )
A b s t r a c t I no r d e r t oa t t r a c t m o r e v i s i t s ,s o m e w e bp a g e s a c h i e v e h i g h e r r a n k i n g s i na s e a r c he n g i n e ’ s r e s u l t s b y d e c e i v i n g t h e s e a r c he n ? g i n e .T h e s e w e bp a g e s a r e c a l l e d“ s e a r c he n g i n e s p a mw e bp a g e ”o r “ s p a mw e bp a g e ” .I nt h i s p a p e r t h e s p a mw e bp a g e d e t e c t i o ni ns e a r c h e n g i n ei s d e e m e da s ac l a s s i f i c a t i o np r o b l e m ,w ec r e a t ea d e c i s i o nt r e e c l a s s i f i c a t i o nm o d e l b y C 4 . 5c l a s s i f i c a t i o na l g o r i t h m ,t o s e p a r a t e w e b p a g e s i n t ot w oc a t e g o r i e s ,t h e n o r m a l a n dt h e s p a m .T h e e x p e r i m e n t r e s u l t s s h o wt h a t o u r c l a s s i f i c a t i o nm o d e l c a ne f f e c t i v e l y d e t e c t s p a mw e b p a g ei ns e a r c he n g i n e . K e y w o r d s S e a r c he n g i n e S p a mw e bp a g e S p a mw e bp a g ed e t e c t i o n D e c i s i o nt r e e C 4 . 5c l a s s i f i c a t i o na l g o r i t h m 网页的排名。也就是说, “ 垃圾网页” 不是提高其质量, 而是针
0 引 言
随着网页数量的指数级增长, 用户不得不通过搜索引擎获 取有效信息, 近几年搜索引擎已经成为网络信息检索的主要方
1 ] 式。据研究表明 [ : 大多数用户只查看搜索引擎返回的前三页
对搜索引擎网页排名算法进行“ 作弊” , 从而提高网页排名。 如图 1所示, 网页中包含了很多热门关键词, 但是有用的信 息却很少, 显然是针对搜索引擎的垃圾网页。
的搜索结果。因此, 网站管理者会通过努力提高网站的质量, 以 达到提高网站在搜索结果中排名的目的。但是, 有些网站则是 通过一些“ 作弊” 的方式来提升排名。更有甚者, 有些网站管理 者“ 手动” 或“ 自动” 地制造一些“ 垃圾网页” , 这些网页不是提 供给用户有效的信息而仅仅是为了提升在搜索结果中的排名, 以此提高网站访问量。 值得注意的是, “ 垃圾网页” 不仅严重干扰了用户检索的有 效信息, 而且给搜索引擎公司造成了极大的资源浪费。据研究
2 ] 表明 [ , 搜索引擎在爬行网页、 处理网页、 索引网页、 响应用户
图1 垃圾网页示例
查询时在“ 垃圾网页” 上的浪费, 达到了各种资源的 1 / 7 。所以, 对“ 垃圾网页” 检测的相关研究具有现实意义。
2 基于网页内容的特征提取
虽然垃圾网页与正常网页在视觉效果上具有明显差别, 但 是却难以根据视觉特征进行检测。因此, 我们根据网页内容, 分 析、 提取垃圾网页的特征, 并把检测垃圾网页看成一个分类问
6 ] 题[ ,, 采用机器学习的方法对网页进行分类。
1 “ 垃圾网页” 的定义
首先, 我们引用文献[ 3 ] 对“ 垃圾网页” 的定义: “ 任何企图 欺骗搜索引擎网页排名算法以获得更高排名的网页” 。 不同的搜索引擎在返回搜索结果时, 采用不同算法计算网
[ 4 ] [ 5 ] 页在搜索结果中的排名, 如G o o g l e 采用 P a g e R a n k 算法计算
为了设计和评估本文的垃圾网页检测算法, 基于尽可能选
收稿日期: 2 0 0 8- 0 4- 2 3 。 贾志洋, 硕士生, 主研领域: We b挖掘, We b 应用测试。
1 6 6
计算机应用与软件 2 . 3 其它特征
2 0 0 9年
用 We b 中的“ 随机样本” 以及网页在相关搜索结果排名靠前的 原则, 我们于 2 0 0 8年 1月爬取了较具代表性的 1 1 4 7 0个中文网 页。通过人工判别, 数据集中共有垃圾网页 5 7 0个( 5 %) , 正常 网页 1 0 9 0 0个( 9 5 %) 。
( 1 )网页“< M E T A>” 标签 在 H T M L语言中, “<M E T A > ” 标签被用来描述一个 H T M L网页文档的属性, 通常会用到 “ n a m e ” 属性里的“ k e y w o r d s ” ( 网页关键词) 和“ d e s c r i p t i o n ” ( 网 页描述) 两个参数。大多数搜索引擎的搜索结果排名和 M E T A 标签中的内容有很大关系, 以至于“ M E T A ” 标签在一个页面中 的作用仅次于网页标题。所以很多垃圾网页的 M E T A标签的内 容会与正常网页有很大区别。 为此, 我们计算了数据集中每一个网页的“<M E T A>” 标 签数量、 “< M E T A> ” 标签“ n a m e ” 属性值为“ k e y w o r d s ” 的“ 网页 关键词” 长度、 “< M E T A> ” 标签“ n a m e ” 值为“ k e y w o r d s ” 的“ 网 页描述” 长度等作为备选特征。 ( 2 )网页 U R L长度 垃圾网页一般是自动生成的, 因此垃 圾网页的 U R L会与正常网页具有显著的区别, 为了提取此特 征, 我们把数据集中每一个网页的 U R L长度提取出来, 将其作 为备选特征。 ( 3 )网页长度 部分垃圾网页为了与大量关键词都 “ 相 关” , 不仅大量重复某个关键词, 而且将大量热门关键词加入到 网页中, 所以垃圾网页的长度可能与正常网页具有较大区别, 也 将网页长度作为备选特征。
2 . 1 网页标题长度
搜索引擎对网页进行排名时, 会给网页标题很高的权重, 所 以很多垃圾网页就针对这点, 将大量与网页内容无关的关键词 罗列在一起作为网页的标题, 这种技术为“ 关键词堆砌” 。 为了测试网页标题是否可以作为判定垃圾网页的特征, 实 验如下: 提取数据集中每个网页 H T M L源代码 “<t i t l e > ” 标记 中标题的长度, 并计算其分布( 如图 2所示) 。
图2 网页标题长度与垃圾网页的关系
( 4 )常用词出现率 有些垃圾网页的内容就是从热门关键 词词典中选择一部分, 这种垃圾网页很可能出现常用词过少或 过多的情况。针对这种行为, 首先建立一个常用词词典, 提取数 据集中每一个网页的文本并进行分词, 然后计算每个网页中的 常用词数量与此网页包含的全部词汇数量的比值, 将其作为备 选特征。 ( 5 )停用词使用率 有些垃圾网页的内容就是随机选取的 一些热门关键词, 所以这些垃圾网页中的停用词的出现频率与 正常网页的停用词出现频率有很大的区别, 为了提取这个特征, 我们计算了数据集中每一个网页的停用词数量与此网页包含全 部词汇数量的比值, 将其作为备选特征。 ( 6 )可视文本 为了提供给用户更多相关的搜索结果, 搜 索引擎在分析网页的时候往往将 H T M L标签里的部分关键词也 收录起来( 虽然这部分文本对用户是不可见的) 。于是垃圾网 页就可以将关键词堆砌到网页 H T M L标签里。为了提取此特 征, 我们计算了去除 H T M L标签后的网页文本长度( 即可视文 本长度) , 将可视文本长度与未去除 H T M L标签的网页 H T M L 文本长度的比值作为备选特征。 ( 7 )链接文本数量 搜索引擎在计算网页排名的时候考虑 到链接文本的因素。即如果网页 A有一个指向网页 B的链接, 其链接文本为 t , 那么即使网页 B中没有出现关键词 t , 搜索引 擎也会认为网页 B的内容是与 t 相关的。搜索引擎在计算网页 排名的时候会考虑链接文本的情况。所以有些垃圾网页的存在 就是为其他垃圾网页提供热门关键词的链接文本。所以, 我们 提取出网页中所有链接文本并计算其长度, 将其长度值与网页 所有文本长度值( 包括链接文本) 的比值作为此备选特征。
图 2由一个直方图和一个折线图组成。图中 x 轴代表网页 标题长度值, 左方的 y 轴与直方图相对应, 即标题长度为 x 的网 页数量占网页总量的百分比; 右方的 y 轴与折线图相对应, 即标 题长度为 x 的网页中垃圾网页所占的百分比( 垃圾网页的可能 性) 。直方图从标题长度为 4 0的位置开始服从对数正态分布, 随着标题长度的增加, 垃圾网页的可能性也逐渐递增, 虽然在 1 1 0位置有一个噪点, 但网页标题的长度大于 1 2 0时其是垃圾 网页的可能性就高于 5 0 %。可见, 标题长度可作为判定垃圾网 页的一个较好的特征。
2 . 2 网页压缩率
搜索引擎在计算网页文本与目标关键词相关度时, 主要采用
7 ] 的是 S a l t o n 和M c G i l l 于1 9 7 3年提出的 T F / I D F算法[ 。T F / I D F
算法认为关键词在文档中的权重正比于其在文档中的出现频率, 反比于所有文档中出现该关键词的文档数。根据此算法, 垃圾网 页可能通过在网页中大量重复同一关键词以获得更高的权重。 我们将网页压缩并计算其被压缩前后大小的比值以获取该 特征, 并将这个比值称为网页压缩率, 计算数据集中每个网页的 压缩率, 得到结果如图 3 。可见, 网页压缩率的分布服从正态分 布, 在0 . 3 1位置达到最高点, 在压缩率小于 0 . 1 0时, 网页是垃 圾网页的可能性大于 6 0 %, 故网页压缩率也是判定垃圾网页的 一个较好的特征。
3 使用分类器检测垃圾网页
前一部分中我们计算了网页的若干特征分布, 但这些特征 不能单独作为检测垃圾网页的决定性规则, 我们考虑将这些特
图3 网页压缩率与垃圾网页的关系
征结合起来并对垃圾网页进行检测。
第1 1期
贾志洋等: 基于内容的搜索引擎垃圾网页检测
1 6 7
本文将垃圾网页检测看成一个分类问题, 通过建立一个分 类模型, 根据网页内容计算其特征值, 使用分类器将其归类到正 常网页或者垃圾网页类别中。我们实验了以下分类方法: 基于
8 ] 9 ] 规则的分类方法 [ 、 基于朴素贝叶斯的分类方法 [ 以及基于决
分类器的数据。由此, 得到分类结果: 1 1 3 1 5个( 占9 8 . 6 %) 网页 分类正确; 1 5 5个( 占1 . 4 %) 网页分类错误。 综上, 本分类器对正常网页具有很好的识别效果,对垃圾 网页也能进行较为准确的判别, 可实际应用于搜索引擎中。
策树的分类方法。通过对比试验结果( 如表 1所示) , 发现基于 决策树的分类方法效果最佳。
表1 三种分类方法试验结果比较 分类方法 网页类别 正常网页 基于规则 垃圾网页 朴素 贝叶斯 正常网页 垃圾网页 正常网页 决策树 垃圾网页 0 . 9 0 3 0 . 8 1 6 0 . 8 5 7 [1] J a n s e nB , S p i n kA . A nA n a l y s i s o f w e bd o c u m e n t s r e t r i e v e da n dv i e w e d [ C ] / / P r o c e e d i n g s o f I C I C ′ 0 3 . L a s V e g a s , N e v a d a , U S A , 2 0 0 3 : 6 5 6 9 . [2] N t o u l a sA , N a j o r kM, M a n a s s eM . D e t e c t i n gs p a mw e bp a g e st h r o u g h c o n t e n t a n a l y s i s [ C ] / / P r o c e e d i n g s o f t h e 1 5 t hI n t e r n a t i o n a l C o n f e r e n c e 8 3 9 2 . o nWo r l dWi d e We b . E d i n b u r g h , S c o t l a n d , 2 0 0 6 : [3] G y o n g y i Z , M o l i n a H . We bs p a mt a x o n o m y [ C ] / / P r o c e e d i n g s o f t h e 1 s t I n t e r n a t i o n a lWo r k s h o po nA d v e r s a r i a lI n f o r m a t i o nR e t r i e v a lo nt h e We b . C h i b a , J a p a n , 2 0 0 5 : 3 9 4 7 . [4] B r i nS , P a g eL . T h ea n a t o m yo f al a r g e ? s c a l eh y p e r t e x t u a l w e bs e a r c h e n g i n e [ C ] / / P r o c e e d i n g so f t h eS e v e n t hI n t e r n a t i o n a l C o n f e r e n c eo n Wo r l dWi d e We b . B r i s b a n e , A u s t r a l i a , 1 9 9 8 : 1 0 7 1 1 7 . [5] B i a n c h i n i M, G o r i M, S c a r s e l l i F . I n s i d eP a g e R a n k [ J ] . A C Mt r a n s a c ? t i o n s o nI n t e r n e t T e c h n o l o g y , 2 0 0 5 , 5 ( 1 ) : 9 2 1 2 8 . [6] F e t t e r l y D , M a n a s s eM, N a j o r kM . S p a m , d a m ns p a m , a n ds t a t i s t i c s : u ? s i n g s t a t i s t i c a l a n a l y s i s t o l o c a t es p a mw e bp a g e s [ C ] / / P r o c e e d i n g s o f t h eS e v e n t hI n t e r n a t i o n a l Wo r k s h o po nt h eWe ba n dD a t a b a s e s . P a r i s , F r a n c e , 2 0 0 4 : 1 6 . [ 7] S t i l t o nG , M c G i l l M . I n t r o d u c t i o nt o m o d e r ni n f o r m a t i o nr e t r i e v a l [ M] . N e wY o r k :M c G r a w ? H i l l I n c , 1 9 8 6 . [8] E i b e F r a n k , I a nWi t t e n . G e n e r a t i n g A c c u r a t e R u l e S e t s Wi t h o u t G l o b a l O p t i m i z a t i o n [ C ] / / P r o c e e d i n g so f t h eF i f t e e n t hI n t e r n a t i o n a l C o n f e r ? e n c e . S a nF r a n c i s c o , U S A , 1 9 9 8 : 1 4 4 1 5 1 . [9] J o h nGH , L a n g l e yP . E s t i m a t i n gC o n t i n u o u s D i s t r i b u t i o n s i nB a y e s i a n C l a s s i f i e r s [ C ] / / P r o c e e d i n g s o f t h e E l e v e n t hC o n f e r e n c e o nU n c e r t a i n ? 3 3 8 3 4 5 . t y i nA r t i f i c i a l I n t e l l i g e n c e . Q u e b e c , C a n a d a , 1 9 9 5 : [ 1 0 ]Q u i n l a nJ . C 4 . 5 : p r o g r a m sf o r m a c h i n el e a r n i n g [ M] . S a nF r a n c i s c o : M o r g a n ? K a u f m a nP u b l i s h e r s I n c , 1 9 9 3 . [ 1 1 ]G a nQ , S u e lT . I m p r o v i n gWe bs p a mc l a s s i f i e r su s i n gl i n ks t r u c t u r e [ C ] / / P r o c e e d i n g s o f t h e 3 r dI n t e r n a t i o n a l Wo r k s h o po nA d v e r s a r i a l I n ? f o r m a t i o nR e t r i e v a l o nt h e We b . B a n f f , A l b e r t a , C a n a d a , 2 0 0 7 : 1 7 2 0 . 0 . 8 9 3 0 . 9 9 1 0 . 7 6 9 0 . 9 9 1 0 . 8 0 7 0 . 9 8 6 0 . 8 3 3 0 . 9 9 5 0 . 8 4 8 0 . 9 8 9 0 . 7 9 9 0 . 9 9 3 准确率 0 . 9 9 0 召回率 0 . 9 9 5 F 1值 0 . 9 9 2
4 结 论
本文较为详细地分析了多种垃圾网页技术, 讨论了几种可 用于垃圾网页的内容特征, 建立了基于决策树的检测模型并进 行了实验, 实验结果表明本文的垃圾网页检测方法是行之有效 的。由于本文是基于网页内容的检测, 而没有考虑网页的链接 结构, 故可以在以后的工作中考虑结合网页的链接结构对垃圾
1 1 ] 网页进行检测 [ , 以期获得更好的检测结果。
参 考 文 献
以下主要关注基于决策树的分类方法, 我们采用 C 4 . 5分
1 0 ] 类算法 [ 建立分类模型。 C 4 . 5算法工作原理为: 在给定训练
数据集和相应的特征集后, 此算法建立一个类似于流程图的树 型结构, 其中每个内部节点表示在一个属性上的测试, 每个分枝 表示一个测试的输出, 算法使用称为信息增益的基于熵的度量 作为启发信息, 选择能够最好地将样本分类的属性作为树形结 构中节点的“ 测试” 或“ 判定” 属性。 我们使用试验数据集中的网页训练分类器。由 C 4 . 5算法 建立的决策树的一部分如图 4所示, 其主要分类过程为: 测试此 决策树的根节点所代表的网页属性值, 然后根据各分支所代表 的输出, 选择输出到左边节点或者右边节点, 然后重复此步骤, 直至输出节点为一个类别。例如: 如果一个网页的 U R L长度大 于1 0 7 , 那么分类器就将此网页归类到垃圾网页的类别中; 如果 一个网页的 U R L长度小于等于 1 0 7 , 并且 M e t a 标签数量少于等 于6 , 并且 M e t a 标签 “ 描述” 长度大于 4 8 , 并且网页长度大于 1 3 7 5 9 , 并且网页压缩率小于等于 0 . 2 2 6 , 那么这个网页就被分 类器归类到垃圾网页的类别中。
???????????????????????
( 上接第 1 6 2页)
[ 1 1 ] 丛爽. 面向 M A T L A B工具箱的神经网络理论与应用[ M] . 合肥: 中 图4 C 4 . 5算法建立的检测垃圾网页的决策树的一部分 国科学技术大学出版社, 1 9 9 8 . [ 1 2 ] 翁维勤, 周庆海. 过程控制系统及工程[ M] . 北京: 化学工业出版 社, 1 9 9 6 . [ 1 3 ] 龚剑平. F O P D T的模型不确定性界和内模控制器鲁棒性能设计 [ J ] . 北京化工大学学报, 2 0 0 1 , 2 8 ( 1 ) : 7 6 7 8 .
最后, 我们采用了 1 0 ? 折交叉确认方法对本文的检测模型进 行评估。1 0 ? 折交叉确认方法思想为: 将数据集中的数据随机分 成1 0等份, 并执行 1 0次训练 / 测试步骤, 每个步骤中都是使用 9 个等份作为训练分类器的数据, 并使用剩余 1个等份作为测试
本文关键词:基于内容的搜索引擎垃圾网页检测,由笔耕文化传播整理发布。
本文编号:208262
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/208262.html