搜索引擎中中文WEB文本自动分类研究.pdf 全文
本文关键词:搜索引擎中中文WEB文本自动分类研究,由笔耕文化传播整理发布。
暨南大学硕士学位论文搜索引擎中中文WEB文本自动分类研究
摘 要随着网络信息的迅猛发展,搜索引擎顺应潮流而生,在网络信息检索中起到
举足轻重的作用。在使用搜索引擎时,我们总希望能获得更快的速度和更高的精
度。通过文本的自动分类,能有效的提高搜索引擎的执行效率,因此本文中我们
重点研究中文文本自动分类的相关技术,从而促进信息化的发展。本文首先介绍了搜索引擎的工作原理和体系结构,然后逐一研究了和中文文
本分类相关的中文分词、特征抽取和文本分类算法等几大关键技术。通过分析研
究当前已有的中文分词算法,结合中文自身特点,提出了一种基于2-Gram模型
HASH机制的中文分词的改进算法。同时对当前流行的几种常用的文本分类算法进
行了比较研究,结合前人的研究经验,提出一种基于VSM模型KNN算法的中文文本
自动分类系统方案。最后对中文文本分类的相关研究作总结和展望。
关键字:搜索引擎、 中文分词、 特征抽取、 文本分类算法、 VSM-KNN
iii 暨南大学硕士学位论文搜索引擎中中文WEB文本自动分类研究
AbstractAlong with the fast development in network information, the search engine
complied with the tidal current lives, plays the pivotal role in the network
information retrieval. When use search engine, we always hoped that we can obtain a
quicker speed and a higher precision. Through automatic text classification, it can
improve the efficiency of search engines. Therefore this paper we focus on related
technologies about the Chinese automatic classification, thus promoting the
development of information technology This paper introduced a search engine, the principle and structure, and then
research several key technologies such as Chinese word segmentation, feature
extraction and classification algorithms. Through the analysis current bas
本文关键词:搜索引擎中中文WEB文本自动分类研究,,由笔耕文化传播整理发布。
本文编号:137518
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/137518.html