文本分类关键技术及应用研究
发布时间:2017-08-10 14:30
本文关键词:文本分类关键技术及应用研究
更多相关文章: 文本分类 特征选择 垃圾邮件分类 性别分类 查询意图识别 主动学习 用户兴趣
【摘要】:以互联网技术的发展为基础,电子文本信息的数量日益增加。如果仅凭人工方法组织和管理这些文本数据,不仅需要消耗大量的人力和时间,而且也很难实现,因此,文本分类作为处理文本数据的关键技术就显得尤其重要,它是文本信息挖掘的基本功能,也成为了处理和组织文本数据的核心技术,得到了学者们的广泛关注,也具有非常广阔的应用前景。目前为止,文本分类技术被广泛应用于信息过滤、邮件分类、搜索引擎、查询意图预测、主题跟踪、文本语料库构建等多个领域,可以方便用户快速定位所需信息,解决杂乱数据的分类问题。文本分类技术与人们的工作、生活越来越密切相关,人们对文本处理系统的智能化和个性化要求也越来越高。如何在提高文本分类方法精度的同时,满足更高的个性化需求,是文本分类方法所要面临的新的挑战。本文对文本分类的基础理论知识和相关技术进行了研究,分析了目前文本分类研究中存在的热点问题,从提高分类方法的快速性、准确性和个性化角度出发,首先提出一种特征选择方法,实现特征空间降维;然后利用分析和挖掘到的用户兴趣信息,针对文本分类的几个有代表性的应用领域,分别提出了一种垃圾邮件分类方法、一种用户性别分类方法和一种网络用户查询意图识别方法。本文的研究内容和创新工作主要包括以下四点:1.一种基于随机游走和蜂群算法的特征选择方法本文提出了一种基于随机游走的特征选择方法,能够在不牺牲分类器性能的前提下,有效减少特征空间的维度。由于传统的特征选择方法总是包含一些冗余信息,而分类器却难以处理较大的特征维度,因此需要将噪声、不相关的和冗余的信息从原始特征空间中过滤掉。该方法首先利用一种最优的特征选择方法(OPFS)从训练集中选择特征。其次,结合随机游走算法和预先定义好的阈值,将冗余的特征过滤掉。在寻找最优阈值的过程中,为了优化参数,采用了改进的人工蜂群算法(IMABC)。最后,在四个经典的文本分类数据集上进行了实验,分别是:mini news group,20-Newsgroups,Reuters-21578和Web KB。实验结果表明,与六种经典的特征选择方法相比,本文方法取得了较好的效果。通过计算F1值,可以看出本文方法在保证了分类精度的同时,可以很大程度上减少向量空间的维度。2.一种基于主动学习和增量学习的垃圾邮件分类方法为了更好地满足用户的个性化需求,以文本分类中一种典型的二元分类问题—垃圾邮件分类为研究对象,引入了基于词频的用户兴趣集的概念,可以在不牺牲垃圾邮件识别精度的情况下,达到有效提高垃圾邮件识别速度,且保证垃圾邮件过滤时的个性化需求的目的。首先,通过联合使用基于词频的用户兴趣集和朴素贝叶斯分类器处理垃圾邮件分类问题;其次,提出了一种基于边界密度的垃圾邮件分类确定性评价方法,将最不确定的邮件选择出来,并推荐给用户进行标注,该方法应用了主动学习的基本原理;最后,基于增量学习理论,将被用户标注过的邮件以及具有最大可能性被正确分类的邮件,用于分类器的再训练。在垃圾邮件分类领域的两个通用数据集Trec 2007和Enron-spam上进行了对比实验,实验结果表明,与六种经典的基于主动学习和增量学习的方法相比,本文方法在保证了分类系统准确性的情况下,减少了垃圾邮件分类的时间开销;此外,由于采用的主动学习方法与传统主动学习方法相比,需要用户进行标注的样本更少,因而降低了用户标注的负担。3.一种基于聚类的文本作者性别分类方法为了解决文本分类领域中有标记的训练样本获取困难,人工标注负担较大的问题,提出了一种基于聚类的文本作者性别分类方法。首先,采用聚类技术对未标注样本集进行聚类,并结合不同聚类半径信息,提出聚类确定性判定因子,选择边界区域特定样本实施专家标注以构建训练样本集并改善样本集质量;其次,结合使用了文档结构特征、文档内容特征和男女作者兴趣特征进行样本表示;最后,使用序列最小优化算法从训练样本中学习到分类器,以实现新样本的分类。多种对比实验表明,一方面,使用聚类方法构建训练集,减少了人工标注负担,而聚类确定性判定因子的使用解决了边界样本类别不确定的问题;另一方面,算法结合了文档结构特征、文档内容特征和男女兴趣特征作为特征,对于提升算法分类精度有着一定的意义。4.一种基于用户兴趣的查询意图识别方法网络用户查询意图识别问题是Web文本分类的一个重要应用。我们在研究了文本分类问题基础理论和应用领域的基础上,将文本分类技术应用于Web文本分类领域中,本文提出了一种基于用户兴趣的查询意图分类方法,通过挖掘出用户的兴趣习惯,可以更好的识别用户的查询意图,实现个性化、智能化的检索。首先,结合ODP开放目录定义了初始主题类别集合,用作预先确定的用户兴趣类别集;其次,通过对用户浏览日志中的网页分类,计算用户在兴趣类别上的兴趣度,以构建用户兴趣模型;与此同时,对于给定的查询,通过聚类方法获得该查询的全部子意图;最后,利用获得的用户兴趣模型和查询的子意图,识别出最符合用户需求的查询意图。实验结果表明,用户兴趣模型可以较好的识别用户感兴趣的领域,并能区分出用户针对不同兴趣类别的喜好程度;而结合了用户兴趣的查询意图识别算法识别精度较高,且更具有个性化。
【关键词】:文本分类 特征选择 垃圾邮件分类 性别分类 查询意图识别 主动学习 用户兴趣
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
- 提要4-5
- 摘要5-8
- Abstract8-15
- 第1章 绪论15-29
- 1.1 研究背景及意义15-18
- 1.1.1 研究背景15-16
- 1.1.2 研究意义16-18
- 1.2 国内外研究现状18-25
- 1.2.1 文本分类历史18-19
- 1.2.2 文本分类研究现状19-25
- 1.3 本文的主要工作25-27
- 1.4 本文的组织结构27-29
- 第2章 文本分类概述29-50
- 2.1 问题描述29-30
- 2.2 文本分类框架30-31
- 2.3 预处理31-32
- 2.4 文本表示32-35
- 2.4.1 文本特征的定义32-33
- 2.4.2 文本表示模型33-35
- 2.5 特征降维35-37
- 2.5.1 特征提取35-36
- 2.5.2 特征选择36-37
- 2.6 特征权重计算37-39
- 2.7 文本分类器设计39-46
- 2.8 文本分类性能评测46-50
- 2.8.1 评价方法46-47
- 2.8.2 评价标准47-50
- 第3章 基于随机游走和蜂群算法的特征选择方法50-69
- 3.1 引言50-51
- 3.2 相关原理51-55
- 3.3 基于随机游走和蜂群算法的特征选择方法55-60
- 3.3.1 算法描述55-57
- 3.3.2 阈值 Δ 的选择57-60
- 3.4 实验结果与分析60-67
- 3.5 本章小结67-69
- 第4章 基于主动学习和增量学习的垃圾邮件分类方法69-87
- 4.1 引言69-70
- 4.2 相关理论70-72
- 4.3 基于主动学习和增量学习的垃圾邮件分类方法72-80
- 4.3.1 特征选择和样本训练73
- 4.3.2 样本分类73-74
- 4.3.3 分类确定性评价74-76
- 4.3.4 样本标注76-77
- 4.3.5 更新基于词频的正负兴趣集及训练样本集77-78
- 4.3.6 样本分类的时间复杂性分析78-80
- 4.4 实验结果与分析80-86
- 4.4.1 阈值"康难≡,
本文编号:651220
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/651220.html