基于动词特征的文本分类方法研究
发布时间:2021-04-19 13:52
随着互联网的快速发展,用户在社交媒体和网络购物平台中产生了大量的数据,文本作为这些数据的重要表现形式,从中提取有效信息与寻找信息热点是现代自然语言处理研究的重要内容。文本分类作为文本信息处理的基础技术之一,一直是信息挖掘等领域的研究热点。在文本分类任务中,文本特征的提取及处理方法直接影响最终分类系统的分类效果。通过使用群体智能、迁移学习等技术可以更好的对文本特征进行识别和提取。本文提出了一种使用扩展后的动词特征进行分类的智能回归分类方法和一种通过迁移学习使用其他领域知识对缺乏标注的文本进行分类的方法,创新点如下:1.在使用文本表达意见、态度时,动词扮演了重要的角色。本文提出了一种通过依存句法分析提取核心动词作为特征并对动词特征进行扩展的方法。为了提高分类器的分类效果,该方法对文本中的动词特征进行了扩展,使用粒子群搜索算法从原始特征空间中寻找有效的特征映射函数,再根据这些函数将原始特征从低维空间映射至易于分类的高维空间,进而构建更合理的特征表达。2.在对动词特征进行扩展后,特征维数较高,本文提出了智能回归方法作为分类方法对扩展后的动词特征进行分类。该方法通过粒子群算法搜寻回归模型的各个参...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 研究目的
1.3 主要研究内容与组织结构
第二章 文本分类技术基础
2.1 引言
2.2 文本分类的经典机器学习方法
2.3 基于迁移学习的文本分类方法
2.4 基于深度学习的文本分类方法
2.5 词性特征在文本分类中的提取与应用
2.6 本章小结
第三章 基于智能回归的文本分类方法
3.1 引言
3.2 构建依存句法树
3.3 动词特征
3.4 动词词组的提取方法
3.5 使用动词特征进行文本分类
3.6 实验与分析
3.7 本章小结
第四章 基于迁移学习的文本分类方法
4.1 文本特征提取和向量化
4.2 跨语言文本分类模型
4.3 枢纽词为动词的跨语言文本分类模型
4.4 实验设置与结果分析
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]基于多特征的中文文本蕴含识别[J]. 谭咏梅,王志浩. 北京邮电大学学报. 2015(06)
[2]一种基于规则优先级的词性标注方法[J]. 王广正,王喜凤. 安徽工业大学学报(自然科学版). 2008(04)
[3]基于分类规则树的频繁模式文本分类[J]. 陈晓云,陈袆,王雷,李荣陆,胡运发. 软件学报. 2006(05)
[4]《统计自然语言处理基础》[J]. 中文信息学报. 2005(03)
硕士论文
[1]英语动词语义中预设问题的研究[D]. 张婷婷.长春理工大学 2010
[2]基于最大熵模型的汉语词性标注研究[D]. 张磊.大连理工大学 2008
本文编号:3147676
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 研究目的
1.3 主要研究内容与组织结构
第二章 文本分类技术基础
2.1 引言
2.2 文本分类的经典机器学习方法
2.3 基于迁移学习的文本分类方法
2.4 基于深度学习的文本分类方法
2.5 词性特征在文本分类中的提取与应用
2.6 本章小结
第三章 基于智能回归的文本分类方法
3.1 引言
3.2 构建依存句法树
3.3 动词特征
3.4 动词词组的提取方法
3.5 使用动词特征进行文本分类
3.6 实验与分析
3.7 本章小结
第四章 基于迁移学习的文本分类方法
4.1 文本特征提取和向量化
4.2 跨语言文本分类模型
4.3 枢纽词为动词的跨语言文本分类模型
4.4 实验设置与结果分析
4.5 本章小结
第五章 总结与展望
5.1 总结
5.2 展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]基于多特征的中文文本蕴含识别[J]. 谭咏梅,王志浩. 北京邮电大学学报. 2015(06)
[2]一种基于规则优先级的词性标注方法[J]. 王广正,王喜凤. 安徽工业大学学报(自然科学版). 2008(04)
[3]基于分类规则树的频繁模式文本分类[J]. 陈晓云,陈袆,王雷,李荣陆,胡运发. 软件学报. 2006(05)
[4]《统计自然语言处理基础》[J]. 中文信息学报. 2005(03)
硕士论文
[1]英语动词语义中预设问题的研究[D]. 张婷婷.长春理工大学 2010
[2]基于最大熵模型的汉语词性标注研究[D]. 张磊.大连理工大学 2008
本文编号:3147676
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3147676.html
最近更新
教材专著