基于针灸文本数据的分类方法研究
发布时间:2021-11-23 05:38
人工智能在医疗领域的研究逐渐成为关注的热点,人工智能辅助的在线诊疗系统大多基于专家模式,该模式对人力、财力和精力的消耗会更多.近年来,针灸治疗因其特殊的治疗效果越来越被重视.根据患者症状,自动给出疾病的初步判断和相关针灸治疗方案推荐,以及自主导诊的在线诊疗系统尤显重要,而系统的关键技术是构建具有较高准确率的疾病症状分类模型.本文应用机器学习和深度学习理论,通过对针灸文本数据中疾病症状构建分类模型,有助于解决目前在线诊疗系统的专家模式问题.通过医院实地和网络爬虫收集针灸文本数据,因其存在与其它通用数据集截然不同的特性,所以对疾病症状分类时需借鉴其它短文本的分类方法.数据集较少时,卡方统计量因其计算复杂度低的优势成为特征选择中最常用的方法之一,但传统卡方统计量忽视了特征项在短文本中出现的频度,且存在特征项与短文本类别负相关等问题.结合针灸文本数据固有特性,本文在使用卡方统计量做特征选择之前,用TextRank算法进行类关键词抽取,然后将保留类关键词扩展到文档向量中,构成一种新的混合特征选择方法.该方法可避免传统卡方统计量存在的问题.最后结合支持向量机分类算法,建立一种基于CHI的混合特征选...
【文章来源】:西安建筑科技大学陕西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
短文本的分类实现过程
西安建筑科技大学硕士学位论文10document时,而且短文本document的每一个特征项kt被赋予权重ijw后,那么这个数据集D的表示形式如下:11121212221212(,,,)kkmmmmkwwwwwwDdddwww(2-2)其中ijw表示第i(i1,2,,m)个短文本的第j(j1,2,,k)个特征项的权重.Bengio等人在2003年的时候在通过文章《NeuralProbabilisticLanguageModel》提出了NNLM(NeutralNetworkLanguageModel,神经网络语言模型)[39,43],NNLM的模型图如下:图2.2NNLM模型结构原理图该模型的目标是构建语言模型:(1)1(|,,)iiniDPwww(2-3)其模型的目的是求(2-3)式的最大值,其中,n表示从语料库中选择的文本序列的长度,即从第i1个词到i(n1)个词.D表示选择出的文本序列组合的集合.(2-3)式是通过已知的前面n个词(1)1,,iniww,预测第i个词iw出现的概率.神经网络语言模型包括输入层、隐藏层和输出层,输入层是将每个词的词向量进行拼接,然后将其输入到隐藏层.隐藏层的计算方法如下:
西安建筑科技大学硕士学位论文11htanh(bHx)(2-4)ybUh(2-5)其中,x为输入层经过每个词的词向量拼接后得到的输入,h为隐藏层得到的值,b为偏置量,H为输入层到隐藏层的权重矩阵,U为隐藏层到输出层的权重矩阵,tanh()为激活函数.在输出层会添加softmax函数,如下:(1)11exp(())(|,,)exp(())iiiniVkkywPwwwyw(2-6)其中,V表示词表的大小,将输出层的值转换为概率值,Hinton提出了一种叫做wordembedding的词向量表示方法,这种方法主要思想是将词从高维空间中映射到低维空间中.在映射后的低维空间中,不同词所对应的词向量之间的位置关系可以很好地反映它们在语义层面上的联系,非常适合作为文本的高层抽象特征表示[40,41].Milolov等人在NNLM模型的基础提出了CBOW模型(ContinuousBagof-wordsModel)和Skip-gram模型[60].Ⅰ.CBOW(ContinuousBagof-wordsModel)模型CBOW模型也叫连续词袋模型,CBOW模型图如下:图2.3CBOW模型图该模型的主要思想是用上下文已经训练出来的词向量来计算当前词的词向量,也就是通过已知的上下文()tcontextw,来计算当前词为tw的概率(|())ttPwcontextw[35].CBOW模型目标函数如下:,log(|())tttcwDLPwcontextw(2-7)
【参考文献】:
期刊论文
[1]卷积神经网络下的Twitter文本情感分析[J]. 王煜涵,张春云,赵宝林,袭肖明,耿蕾蕾,崔超然. 数据采集与处理. 2018(05)
[2]文本分类中基于CHI改进的特征选择方法[J]. 宋呈祥,陈秀宏,牛强. 微电子学与计算机. 2018(09)
[3]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩. 计算机应用研究. 2019(09)
[4]基于词向量和卷积神经网络的垃圾短信识别方法[J]. 赖文辉,乔宇鹏. 计算机应用. 2018(09)
[5]基于卷积神经网络的中文新闻文本分类[J]. 蓝雯飞,徐蔚,王涛. 中南民族大学学报(自然科学版). 2018(01)
[6]基于卷积神经网络与多特征融合的Twitter情感分类方法[J]. 王汝娇,姬东鸿. 计算机工程. 2018(02)
[7]基于改进的CHI统计方法在文本分类中的应用[J]. 黄章树,叶志龙. 计算机系统应用. 2016(11)
[8]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞. 计算机工程与应用. 2015(04)
[9]不均衡数据集上文本分类方法研究[J]. 谢娜娜,房斌,吴磊. 计算机工程与应用. 2013(20)
[10]基于LDA高频词扩展的中文短文本分类[J]. 胡勇军,江嘉欣,常会友. 现代图书情报技术. 2013(06)
硕士论文
[1]面向疾病诊断的多分类器集成方法研究[D]. 熊婷.华东交通大学 2018
[2]社交媒体短文本分类方法研究[D]. 文永.电子科技大学 2018
[3]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[4]Relief特征选择与混合核SVM在疾病诊断中的研究[D]. 麻书琴.太原理工大学 2017
[5]基于机器学习的汉语短文本分类方法研究与实现[D]. 黄旭.黑龙江大学 2016
[6]智能疾病导诊及医疗问答方法研究与应用[D]. 李超.大连理工大学 2016
[7]基于改进TF-IDF特征提取的文本分类模型的设计与实现[D]. 杜朋朋.华中科技大学 2016
[8]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[9]基于文本挖掘的疾病辅助导诊技术研究[D]. 徐冉.北京邮电大学 2015
[10]中文短文本分类的相关技术研究[D]. 崔争艳.河南大学 2011
本文编号:3513239
【文章来源】:西安建筑科技大学陕西省
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
短文本的分类实现过程
西安建筑科技大学硕士学位论文10document时,而且短文本document的每一个特征项kt被赋予权重ijw后,那么这个数据集D的表示形式如下:11121212221212(,,,)kkmmmmkwwwwwwDdddwww(2-2)其中ijw表示第i(i1,2,,m)个短文本的第j(j1,2,,k)个特征项的权重.Bengio等人在2003年的时候在通过文章《NeuralProbabilisticLanguageModel》提出了NNLM(NeutralNetworkLanguageModel,神经网络语言模型)[39,43],NNLM的模型图如下:图2.2NNLM模型结构原理图该模型的目标是构建语言模型:(1)1(|,,)iiniDPwww(2-3)其模型的目的是求(2-3)式的最大值,其中,n表示从语料库中选择的文本序列的长度,即从第i1个词到i(n1)个词.D表示选择出的文本序列组合的集合.(2-3)式是通过已知的前面n个词(1)1,,iniww,预测第i个词iw出现的概率.神经网络语言模型包括输入层、隐藏层和输出层,输入层是将每个词的词向量进行拼接,然后将其输入到隐藏层.隐藏层的计算方法如下:
西安建筑科技大学硕士学位论文11htanh(bHx)(2-4)ybUh(2-5)其中,x为输入层经过每个词的词向量拼接后得到的输入,h为隐藏层得到的值,b为偏置量,H为输入层到隐藏层的权重矩阵,U为隐藏层到输出层的权重矩阵,tanh()为激活函数.在输出层会添加softmax函数,如下:(1)11exp(())(|,,)exp(())iiiniVkkywPwwwyw(2-6)其中,V表示词表的大小,将输出层的值转换为概率值,Hinton提出了一种叫做wordembedding的词向量表示方法,这种方法主要思想是将词从高维空间中映射到低维空间中.在映射后的低维空间中,不同词所对应的词向量之间的位置关系可以很好地反映它们在语义层面上的联系,非常适合作为文本的高层抽象特征表示[40,41].Milolov等人在NNLM模型的基础提出了CBOW模型(ContinuousBagof-wordsModel)和Skip-gram模型[60].Ⅰ.CBOW(ContinuousBagof-wordsModel)模型CBOW模型也叫连续词袋模型,CBOW模型图如下:图2.3CBOW模型图该模型的主要思想是用上下文已经训练出来的词向量来计算当前词的词向量,也就是通过已知的上下文()tcontextw,来计算当前词为tw的概率(|())ttPwcontextw[35].CBOW模型目标函数如下:,log(|())tttcwDLPwcontextw(2-7)
【参考文献】:
期刊论文
[1]卷积神经网络下的Twitter文本情感分析[J]. 王煜涵,张春云,赵宝林,袭肖明,耿蕾蕾,崔超然. 数据采集与处理. 2018(05)
[2]文本分类中基于CHI改进的特征选择方法[J]. 宋呈祥,陈秀宏,牛强. 微电子学与计算机. 2018(09)
[3]结合改进的CHI统计方法的TF-IDF算法优化[J]. 马莹,赵辉,李万龙,庞海龙,崔岩. 计算机应用研究. 2019(09)
[4]基于词向量和卷积神经网络的垃圾短信识别方法[J]. 赖文辉,乔宇鹏. 计算机应用. 2018(09)
[5]基于卷积神经网络的中文新闻文本分类[J]. 蓝雯飞,徐蔚,王涛. 中南民族大学学报(自然科学版). 2018(01)
[6]基于卷积神经网络与多特征融合的Twitter情感分类方法[J]. 王汝娇,姬东鸿. 计算机工程. 2018(02)
[7]基于改进的CHI统计方法在文本分类中的应用[J]. 黄章树,叶志龙. 计算机系统应用. 2016(11)
[8]基于LDA特征扩展的短文本分类[J]. 吕超镇,姬东鸿,吴飞飞. 计算机工程与应用. 2015(04)
[9]不均衡数据集上文本分类方法研究[J]. 谢娜娜,房斌,吴磊. 计算机工程与应用. 2013(20)
[10]基于LDA高频词扩展的中文短文本分类[J]. 胡勇军,江嘉欣,常会友. 现代图书情报技术. 2013(06)
硕士论文
[1]面向疾病诊断的多分类器集成方法研究[D]. 熊婷.华东交通大学 2018
[2]社交媒体短文本分类方法研究[D]. 文永.电子科技大学 2018
[3]基于SVM和半监督学习的短文本分类算法研究[D]. 向俊.南京信息工程大学 2017
[4]Relief特征选择与混合核SVM在疾病诊断中的研究[D]. 麻书琴.太原理工大学 2017
[5]基于机器学习的汉语短文本分类方法研究与实现[D]. 黄旭.黑龙江大学 2016
[6]智能疾病导诊及医疗问答方法研究与应用[D]. 李超.大连理工大学 2016
[7]基于改进TF-IDF特征提取的文本分类模型的设计与实现[D]. 杜朋朋.华中科技大学 2016
[8]基于卷积神经网络的短文本分类方法研究[D]. 蔡慧苹.西南大学 2016
[9]基于文本挖掘的疾病辅助导诊技术研究[D]. 徐冉.北京邮电大学 2015
[10]中文短文本分类的相关技术研究[D]. 崔争艳.河南大学 2011
本文编号:3513239
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3513239.html