基于自然语言处理及机器学习的文本分类研究
发布时间:2021-08-13 10:47
伴随着信息技术的不断发展,电子文本信息日益增多。为方便用户可以快速、精准地从文本中找到用户所需求的信息,并且可以使用什么方法有效地组织和管理这些文本信息将成为信息技术面临的一大挑战。文本自动分类作为处理海量文本信息的关键技术,可以在很大程度上解决信息复杂混乱的问题。把相关信息资源归类,这样既方便用户准确地搜索到所需的信息,又能实现数据的有效管理。本文从提高文本自动分类准确率的角度出发,主要对文本自动分类及相关技术进行研究分析,从自然语言处理到分类的整个过程中,每一环节都紧密相连,其中最重要的是在自然语言处理过程中,要保证分词的准确性,才能保证后续分类的正确率。自然语言处理过程中,基于匹配词库考虑,本文以《铁路工程地质勘察规范》(TB1002-2007)为训练标准,首先对文本文档进行自然语言处理,由于分词的局限性及词的歧义识别问题,在构建语料库的过程中,计算机与人工结合进行分词,最终的分词结果选择词频大于某个预定阈值的词条作为最终的地质勘探语料库。为避免同一地勘专业词条被分开,在研究地勘文本自动分类的过程中,分词时把该语料加入Python库内进行字符串匹配。基于上述自然语言处理过程的描述...
【文章来源】:云南大学云南省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
语料库词条的位置—词频图
工程地质勘察报告词云图
工程地质说明书的词云图
【参考文献】:
期刊论文
[1]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[2]基于隐马尔科夫模型的RCS识别方法研究[J]. 郭武,朱明明,杨红兵. 现代雷达. 2013(03)
[3]支持向量机在文本分类中的应用[J]. 段莹. 计算机与数字工程. 2012(07)
[4]中文分词算法在自然语言处理技术中的研究及应用[J]. 吴巧玲. 信息与电脑(理论版). 2011(12)
[5]云计算环境下朴素贝叶斯文本分类算法的实现[J]. 江小平,李成华,向文,张新访. 计算机应用. 2011(09)
[6]文本分类特征降维研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(09)
[7]国内外文本分类研究计量分析与综述[J]. 胡泽文,王效岳,白如江. 图书情报工作. 2011(06)
[8]基于词关联度的文本检索系统[J]. 丁立恺,夏勇明,钱松荣. 微型电脑应用. 2011(03)
[9]中文分词中的歧义识别处理策略[J]. 魏莎莎,熊海灵. 微计算机信息. 2010(30)
[10]基于N元语法的汉语自动分词系统研究[J]. 石佳,蔡皖东. 微电子学与计算机. 2009(07)
硕士论文
[1]面向中文地址的分词引擎设计及实现[D]. 陈建英.中国科学院大学(工程管理与信息技术学院) 2015
[2]基于向量空间的文本聚类方法与实现[D]. 邬启为.北京交通大学 2014
[3]中文文本挖掘基本理论与应用[D]. 康东.苏州大学 2014
[4]文本分类中的特征降维方法研究[D]. 万斌候.重庆大学 2012
[5]一种HMM的学习算法[D]. 张路.西南交通大学 2010
[6]中文文本自动分类算法研究[D]. 王香港.上海交通大学 2008
[7]数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D]. 张利军.西北工业大学 2003
本文编号:3340287
【文章来源】:云南大学云南省 211工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
语料库词条的位置—词频图
工程地质勘察报告词云图
工程地质说明书的词云图
【参考文献】:
期刊论文
[1]一种新型朴素贝叶斯文本分类算法[J]. 邸鹏,段利国. 数据采集与处理. 2014(01)
[2]基于隐马尔科夫模型的RCS识别方法研究[J]. 郭武,朱明明,杨红兵. 现代雷达. 2013(03)
[3]支持向量机在文本分类中的应用[J]. 段莹. 计算机与数字工程. 2012(07)
[4]中文分词算法在自然语言处理技术中的研究及应用[J]. 吴巧玲. 信息与电脑(理论版). 2011(12)
[5]云计算环境下朴素贝叶斯文本分类算法的实现[J]. 江小平,李成华,向文,张新访. 计算机应用. 2011(09)
[6]文本分类特征降维研究综述[J]. 奉国和,郑伟. 图书情报工作. 2011(09)
[7]国内外文本分类研究计量分析与综述[J]. 胡泽文,王效岳,白如江. 图书情报工作. 2011(06)
[8]基于词关联度的文本检索系统[J]. 丁立恺,夏勇明,钱松荣. 微型电脑应用. 2011(03)
[9]中文分词中的歧义识别处理策略[J]. 魏莎莎,熊海灵. 微计算机信息. 2010(30)
[10]基于N元语法的汉语自动分词系统研究[J]. 石佳,蔡皖东. 微电子学与计算机. 2009(07)
硕士论文
[1]面向中文地址的分词引擎设计及实现[D]. 陈建英.中国科学院大学(工程管理与信息技术学院) 2015
[2]基于向量空间的文本聚类方法与实现[D]. 邬启为.北京交通大学 2014
[3]中文文本挖掘基本理论与应用[D]. 康东.苏州大学 2014
[4]文本分类中的特征降维方法研究[D]. 万斌候.重庆大学 2012
[5]一种HMM的学习算法[D]. 张路.西南交通大学 2010
[6]中文文本自动分类算法研究[D]. 王香港.上海交通大学 2008
[7]数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D]. 张利军.西北工业大学 2003
本文编号:3340287
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3340287.html