用户兴趣度算法在搜索引擎优化中的研究与应用
本文关键词:用户兴趣度算法在搜索引擎优化中的研究与应用,由笔耕文化传播整理发布。
搜索引擎优化(Search Engine Optimization,简称SEO)是网站采用对搜索 引擎友好的技术手段,利用搜索引擎的搜索规则来提高网站在相关搜索引擎内 的排名,以达到网站排名靠前及收录数量增加的目的。经研究发现,使用搜索 引擎的用户一般只会留意搜索结果最前面的几个条目,一个阿站能否以其核心 关键词在主流搜索引擎中获得自然排名优先,在今天竞争异常激烈、信息过度 膨胀的商业社会,有着非比寻常的价值,所以不少网站都希望通过各种形式来 提升其在搜索引擎的排序,尤其是那些依靠广告维生的网站。因此,国内外网 络营销人士都自发展开了对以Google、百度为代表的各种搜索引擎的研究,从 而衍生出了一种新兴的行业——搜索弓丨擎优化服务,在国内外都有着广阔的市 场[1,3]。一般情况下,优化好的网站,从搜索引擎来的流量都会有很大的提高, 不过这仅仅是能带来用户的访问,而真正能够留住用户的依然是网站的内容以 及良好的用户体验,因此搜索引擎优化仅仅是一个辅助手段[2]。
一般情况下,用户对网站页面的访问行为都是有其目的性的,这种行为从 动机上可以分为稳定兴趣和偶然兴趣。稳定兴趣是指一个人对某事物持久的兴 趣倾向;偶然兴趣是指一个人由于临时需要或其他原因对某事物产生的偶然兴 趣,每个人的偶然兴趣可以认为是随机变化的。但在Web日志中我们可以发现, 用户的兴趣一般具有集中性,这就说明用户由稳定兴趣驱动的访问频率要远远 高于偶然兴趣,因雄一定时间段内的Web访问日志中必然蕴含着用户的稳定兴 趣,也可以认为用户的兴趣是由其浏览过的大量页面的兴趣综合而成。用户兴 趣度算法就是用来从日志中找出用户最感兴趣的页面及访问路径,是基于Web 数据挖掘中的Web使用挖掘算法提出的。
Web数据挖掘(Web Data Mining)是数据挖掘技术的一个重要分支,是从 Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。与传统数 据库和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且 是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须 经过必要的数据处理,典型Web数据挖掘的处理流程:查找资源一信息选择和 预处理一模式发现一模式分析。根据对Web数据的感兴趣程度不同,Web数据 挖掘一般可以分为三类:Web内容挖掘、Web结构挖掘、Web使用挖掘。Web数据挖掘目前普遍被用来制作网站中的推荐信息、访问排行等用于提升网站的 用户体验[4A7,8,9,1()]。
但是,不论是搜索引擎优化还是Web数据挖掘在对网站的影响上都有其局 限性。搜索引擎优化对网站进行优化处理的主要目的是使网站在搜索引擎的搜 索列表中拥有更高的显示排名,其主要还是在针对搜索引擎来进行优化,做一 个更有利于搜索引擎访问、收录和分的网站,其间的整个过程忽略了对于网 站来说最重要的因素——用户,这种情况在国内更为普遍。这种只是单纯的提 供关键词排名服务的做法,随着搜索引擎算法的不断调整和改进,会使得路越 走越窄,甚至有可能发展到跟搜索引擎本身竞争排名的尴尬局面?,而Web数据 挖掘能够通过分析网站的内容(包括访问日志)找到其中不易察觉的内在联系,这种联系可以帮我们分析出用户的访问习惯、浏览兴趣等,这些数据给了一个 能够让网站与用户进行互动的工具,使网站具备了学习功能,实现了网站对用 户习惯的自适应,但是搜索引擎和用户的访问方式毕竟是不同的,因此这种自 适应并不能充分的满足搜索引擎的抓取需要,没有办法有效的帮助网站提升在 搜索引擎中的排名。
本论文的研究目的就是要将搜索引擎优化和Web数据挖掘两项技术进行有 效的结合,综合两种技术的优点。通过Web数据挖掘来找到关键词、访问链接、? 访问路径等,再让所得到的关联数据为之后的搜索引擎优化过程提供可靠、有 力的数据支持,这样就充分利用了数据挖掘在对数据的分析、总结上的优势,再结合上搜索引擎优化方面的知识和经验,避免了在优化的过程中由于过度重 视对搜索引擎本身排名算法的研究,从而导致的为了优化而优化的误区。使得 能够在制定优化方案的同时也充分考虑到用户的访问习惯和对网站的兴趣,让 网站能在优化的每一个环节中都充分考虑到用户的因素,为网站提供一个合理 的优化建议,使网站能够利用在搜索引擎中排名的提升吸引来大量对网站真实 有效的用户,从而进入到一个良性的循环发展过程中。
1.2相关领域研究现状在搜索引擎优化领域,国外发^的相对比较早,在1997年的时候就己经有 人在从事相关方面的研究了。如今,搜索引擎优化已经发展成一个成熟、正规 的服务性行业,其中以大型的服务公司和经过专业培训的技术人员为主,为客 户提供一整套专业的网站优化方案。与此同时,搜索引擎优化技术也得到了f大站长以及主流搜索引擎的认同。比如主流搜索引擎之一的Google,在其官方 网站上就专门设有一页来介绍如何合理的进行搜索引擎优化,并且还编写了《搜 索引擎优化入门指南》一书来帮助初学者网站进行正确的优化,这充分表明了 Google对此项技术的支持态度。
对于任何一家网站来说,要想在网站推广中取得成功,搜索引擎优化是最 为关键的一项任务。同时,随着搜索引擎不断调整、优化它们的排名算法规则, 每次算法上的改变都可能会让一些排名很好的网站在一夜之间名落孙山,而失 去排名的直接后果就是失去了网站原有的访问量。所以每次搜索引擎算法的改 变,都会在各网站之中引起不小的骚动和焦虑,搜索引擎优化也成了一个愈来 愈复杂的任务。
国内的搜索引擎优化行业是从2003年才正式起步,且发展情况并不如国外 那样理想。国内虽然起步较晚,发展速度却很快,2004年时就已经出现了大量 从事此领域的公司和个人,因为缺乏有效的管理和规范,行业发展+分混乱。 混乱过后,行业的发展逐渐成熟和规范,开始向正规化和专业化发展。但是, 由于国内从业人员依然以个人爱好者为主,且缺乏相关的专业培训机构以及学 术交流平台,使得在国内搜索引擎优化技术的进步缓慢,一直停留在较初级的 水平。同时,随着搜索引擎技术的不断升级和完善,旧的优化手段已经行不通, 也使得大量技术落后或采用不正当手段的公司逐渐失去市场,从而选择放弃或 转向采用正规方式,行业也得到进一步的净化。
在经过了很长时间的洗礼和净化后,目前国内的搜索引擎优化行业已经相 当正规和专业,但是依然存在着大量的公司或个人采用的是非正当的手段,且 在部分人的印象中也认为这是一种以作弊的方式余提升网站排名的方法。这主 要是因为两个方面,首先,各个站长尤其是企业网站虽然意识到了搜索引擎优 化对于网站的重要性,但是对其并不了解,一味地追求短期效益;其次,部分 不够专业的从业人员为了利益去迎合客户需求,做出投入低、见效快、回报高 的承诺,然后使用作弊的手法来使得排名快速提升,从而扰乱了行业秩序。
随着搜索引擎技术的不断提高和智能化,各种黑帽作弊手段在搜索排名中 的权重将越来越低,网站的相关性作用变得越来越大。以百度为例,其已经对 网站进行了等级评定,这个等级有别于Google的PageRank,百度的等级评定不 仅是考虑到链接等因素,更是对网站的综合表现如用户体验、内容质量等方面 进行评级,此举的主要目的是鼓励站长制作更多的优质网站,而不是陷于垃圾站的泥淖里;而且其对内容的相关性的判断水平也会大幅提髙。这使得从前单 纯的优化技巧、跟踪搜索引擎算法变化的意义越来越小,其本身的技术性将越 来越低,但对相关从业人员的综合能力和技术的依赖程度越来越高。搜索引擎 优化如果不与产品结合、不与用户体验结合,那它最终将会站到搜索引擎的对 立面,对于大型网站这方面就更明显,它们不仅要能执行优化策略,网站本身 的内容也大都要对用户有价值,即使搜索引擎不存在了,他们的网站也会有一 定的用户基础。
1.3论文主要研究内容本论文将以Web数据挖掘中的Web日志挖掘为主要研究对象,以建立一个 基于用户兴趣度的Web数据挖掘模型为研究目标,然后在研究平台上依据此模 型得出的研究数据给出实际可行的优化方案。在论文的研究过程中试图找到一 种方法,建立一个模型,解决一类问题。
1、分析隐式关键词’用户在使用搜索引擎查找资料时,通常是在搜索引擎的输入框中输入与其 要查找的内容相关的关键词,然后再从搜索引擎给出的相关网页列表中查找与 其要找的内容最相近的页面进入查看,而在寻找内容最相近页面的过程中,用 户的关注重点是搜索列表中前几页甚至是第一页的前几条内容,因此关键词对 于一个网页在搜索引擎中的排名来说非常的重要,在优化的过程中有着十分重 要的地位。如果关键词选的好,则可以达到事半功倍的效果,反之就有可能做 了很多的努力依然无法得到理想的排名。
以往搜索引擎优化的技术人员在挑选关键词的时候都是通读网站内容,然 后选出出现次数最多或与文章内容最相关的词和短语,做一番筛选后再针对所 挑选出的关键词对页面进行优化,增加页面关键词密度(即关键词在网页上出 现的总次数与其它文字的比例)和调整关键词出现的位置。此过程过于依靠技 术人员的个人能力和实施经验,虽然还可以借助一些站长工具的帮助来分析访 问来路页面和来源关键词,但是这些数据都是离散的,个人要从f找出其中的 关联并总结出关键词的信息,还是要花一定时间和具备足够的经^才能完成。 而且这些工具都只是记录了通过此关键词进入的第一个页面,但是作为用户访 问来说,其通过一次搜索进入一个网页后,通常还会通过这个网页的内部链接访问其它页面,而其所进入的第二个、第三个等后续页面一般也都会与这个关 键词有一定的关联。
因此本论文在记录日志时会将一次会话中的全部访问页面都加上来源关键 词的记录,,假设它们都是与此关键词相关的页面,然后找出每个页面下的来源 关键词排名,将其中排名高的关键词作为这个页面的隐式关键词。在这个关键 词排名中,很多关键词都是从会话的第一条记录的来源页继承过来的,因此它 们都属于间接关键词,而这类关键词在常规做法中通常都是被遗漏掉的。因此, 通过这个关键词排名寻找隐式关键词的方法,拓宽了关键词的挖掘途经,即便 是经验不足的搜索引擎优化技术人员也能够找到更多的关键词来进行优化。
2、查找潜在兴趣路径.一个网站是由大量的网页和网页之间的链接所组成的,这些链接将各个独 立的页面连接成为一个相互连通的网络,当用户访问其中一个页面时,可以通 过点击其中的链接访问到同域名下的其它页面,这个链接就是一个网站的内部 链接。搜索引擎进行页面收录的时候,与用户浏览网站的过程十分相似,也是 先访问到网站中的一个页面,然后顺着页面中的链接一个接一个访问下去,在 这中间如果某个链接所指向的页面不存在或者某个页面中没有任何其它页面的 链接,搜索引擎的访问就会中断,就会给正常的收录带来影响。?
一个内部链接做的好的网站,不仅要能够保证搜索引擎顺利的访问并收录 网站中的所有页面,也要能够通过链接策略来给网站的页面加分。对于大部分 搜索引擎来说,页面中的任何一个内部链接都是对链接所指向页面的一次引用, 表明引用页和被引用页之间存在着某种联系或相关性,同时也给被引用页投了 一票,一个页面被引用次数越多其票数就越多,表明这个页面在网站中的地位 越高。因此,合理地设置内部链接可以有效地突出网站中的重要页面,提升其 在搜索引擎中的排名。相应地,如果内部链接使用不合理甚至是滥用,虽然能 在短期提升某些页面的排名,但是由于严重影响了用户体验,可能给网站带来 很严重的后果。
本文在做网站的内部链接结构优化时,提出了潜在兴趣路径的概念,它是 建立在用户浏览兴趣路径的基础上。用户浏览兴趣路径是找出网站中用户最感 兴趣的、浏览最频繁的一条或几条路径,路径中相邻的两个页面均有内部链接 相连,它们均属于网站中真实存在的实体路径。本文认为其中任一条路径中的 任意两个页面都是存在相关性的,距离越近的页面之间相关性越强,即使它们 之间没有链接相连,因此如果将它们之间连接起来可能会构成一条新的浏览兴 趣路径。潜在兴趣路径就是由浏览兴趣路径中没有链接相连且相关性较高的两 个页面所组成的。
3、应用实例分析根据前两个步骤的结果,针对实验网站制定关键词和内部链接结构优化方 案,通过此方案对网站进行如下优化处理:a)修改实施页面的内容,使通过Web数据挖掘找出的此页面的隐式关键词 .密度得到提升,从而提升此网页在搜索引擎中与此关键词的相关度;b)根据分析出的用户潜在兴趣路径调整网站页面间的链接结构,优化网站 内链;用搜索引擎优化来提升网站页面在搜索引擎中的排名的最终目的是要使得 页面甚至网站的访问量得到提升,因此,本论文最后将对比方案实施前后实验 页亩的访问量等数据,查看其是否得到显着提升是优化是否成功的验证手段, 从而来验证本论文研究项目的实施效果。
本文关键词:用户兴趣度算法在搜索引擎优化中的研究与应用,由笔耕文化传播整理发布。
本文编号:103203
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/103203.html