当前位置:主页 > 科技论文 > 搜索引擎论文 >

汉音对照 自动分类在搜索引擎性能优化中的应用 zi dong fen lei zai sou su

发布时间:2016-11-15 21:23

  本文关键词:自动分类在搜索引擎性能优化中的应用,由笔耕文化传播整理发布。


自动分类在搜索引擎性能优化中的应用 自动分类在搜索引擎性能优化中的应用 自动分类:按照分类标准,将考察对象划分到各类别下 自动聚类:按照被考察队形的内部特征,把相似、近似、特征相似的对象聚合到一起 信息查询方式: ――分类浏览:基于网站分类目录,,浏览对象为网站――成本高,更新维护量大 ――关键词检索:检索对象为网页,信息量大,更新及时,不须人工干预――信息量大,质量难以保证 ====》提供对关键字检索结果集网页的分类浏览 文本分类: ――基于知识工程:依据语言学知识编制推理规则――复制而困难 ――基于统计:利用词频信息对文本进行加权(简单,准确)向量空间模型――文档相似度由两个向量的夹角余旋决定 自动规类步骤: 网页特征提取和加权:提高分类速度和精度(排除了干扰)词频,位置 机器学习: Svm: 建立在学习理论的结构风险最小化原则基础上,在高维空间寻找超平作为两个类的分割,以满足最小的分类错误率(分类间隙最大) 最近k邻居:对给定的新网页,考虑在训练集中与该网页距离最近的k篇文本,根据这k篇文本所属的类别决定新网页类别。K值一般为学习调整 贝叶斯算法 自动聚类的实现步骤: 网页表示 相似度计算 聚类 给出聚类表示 自动聚类的基本实现方式: 单遍聚类法:设定类相似度阈值;任意取一篇文章做聚类中心,对新的文本,计算与其相似度,在阈值内这聚入此类,调整聚类中心;否则为一新类聚类中心。 逆中心聚类法:任取一向量为聚类中心;有最大最小距的非聚类中心向量为下一个聚类中心。确定聚类中心后在做就近聚类 密度测试法:某网页周围聚集有较多网页,且在较大范围有网页,则可作为聚类中心。网页分为未聚类网页,已聚类网页和松散型网页。初始时所有网页都为未聚类网页。任取未聚类网页,根据测试条件,变为聚类网页或松散型网页知道结束。 自动分类应用实例: Wwlib自动规类系统 Grouper自动聚类系统 Vivisimo自动聚类系统 应用相关问题: 传统(图书馆)分类法vs网络分类法-》结合 应用时机 应用对象 结果展示


  本文关键词:自动分类在搜索引擎性能优化中的应用,由笔耕文化传播整理发布。



本文编号:176296

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/176296.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ec141***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com