网页文本分类及其在搜索引擎中的应用.pdf 全文
本文关键词:网页文本分类及其在搜索引擎中的应用,由笔耕文化传播整理发布。
北京工业大学
硕士学位论文
网页文本分类及其在搜索引擎中的应用
姓名:徐学可
申请学位级别:硕士
专业:计算机软件与理论
指导教师:蒋宗礼
20080401摘要
皇??.?? 曼皇曼曼鼍曼曼皇
手陶 斐
网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息
资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、
搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类
对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。
本文研究了网页文本分类及其在搜索引擎应用,主要工作如下:
. 网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法,
网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网
页分类各种技术进行整合,使其具有良好的框架和可扩展性。
. 提出了~种基于集成学习与类指示器的文本分类方法,该方法利用
.算法框架,在每一轮次中,自适应地计算类指示器,通
过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利
用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力
强。
.
将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于
.方法,通过利用其自适应维护权重分布的特点,用每轮
的权重分布,修正传统中一法分类器偏差,突出被误分类的文档的影
响,降低其误分类概率。
. 开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类
的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的
进行词条聚合,并根据聚合特征的特点,提出了一种新的权
重计算方法。
.
将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主
题模型,网页优先级计算
本文关键词:网页文本分类及其在搜索引擎中的应用,由笔耕文化传播整理发布。
,本文编号:64066
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/64066.html