基于微博文本和深度学习的抑郁症识别研究
发布时间:2021-12-23 10:00
抑郁症是一种典型的慢性精神疾病,它的显著特征为情感上的消极倾向和行为上的自杀倾向。据近年来公布的报道显示,目前全球4.3%人口正遭受抑郁症折磨。其中中国有五千万多人患有抑郁症,占总人口的4.2%,患病率达到6.1%,自杀率占自杀总人口的50%。但是由于个人和社会发展等因素,当前抑郁症识别率低于10%。如何提高识别率是当前我国抑郁症治疗急需解决的问题。随着社交网络平台的发展,越来越多的抑郁症患者将微博作为表达自我的一种途径,这些通过微博记录的日常生活轨迹中蕴含大量的患者病情信息,为抑郁症的识别提供了新的思路。基于此提出一种基于微博文本和深度学习的抑郁症识别算法,既有效地规避了当前抑郁症识别存在的问题,又为医务人员主动发现和救助患者提供了支撑。本文的主要研究内容包括:(1)构建了抑郁症领域词典库:综合分析抑郁症微博情感和行为的共性特征,结合通用知识库和实验语料库,采用两种语义相似度算法构建了抑郁症领域词典库,涵盖了情感词典、表情符号词典、关键词词典等,弥补了该领域词典的空缺;(2)数据预处理:通过对原始数据去隐私、分词、去噪等预处理操作形成实验语料,提取了与抑郁症紧密相关的词典特征、语义特...
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
常见通用情感词典Figure1-1GeneralEmotionalDictionary虽然通用情感有词典规模大、通用性强、领域广、准确率高等优势,但是领
北京工业大学工学硕士学位论文入、隐藏、输出三层。CBOW 的基本思想是:利用上下文语境预测目标词的,如公式(2-1)。其输入层为上下文词汇的 one-hot 编码向量,通过矩阵W换映射到隐藏层,隐藏层最后是一个 N 维向量,输出层为目标词的 one-hot向量。Skip-gram 模型则是利用目标词预测上下文语境的概率,与其正好相公式(2-2),具体的模型如图 2-1。(|,,,)ttkt2 t1t1t2tkPWWWWWWW (2-1)(,,,|)tkt2 t1t1t2tktPWWWWWWW (2-2)
较为传统的微博文本分类算法是基于浅层的机器学习算法,主要向量机算法、朴素贝叶斯算法和 K 最近邻算法等。这类算法主要是通过验数据进行标注,并根据场景需求提取相应文本特征,基于这些特征构模型,通过实验语料进行训练和测试,最终得出分类结果。本节对这些进行简单介绍:支持向量机(Support Vector Machine, SVM)是一种基于有监督义线性分类器,其决策边界是对学习样本求解的最大边距超平面,既在上的分类间隔最大化的二分类算法[28-30]。它在文本分类相关领域有广泛的核心原理是在特征空间上寻找到超平面,该平面使得正负数据最大程平面,既分类间隔达到最优,相当于获取更强的泛化能力,求解相应的凸的问题[31]。因此最优的模型必然就是找到最大程度地将数据点划分开要不偏不倚,不能靠近负样本也不能靠近正样本,并且与所有支持向量量大才可以。图 2-2 形象的刻画了它的底层计算模型:
【参考文献】:
期刊论文
[1]抑郁症治疗的研究进展评述[J]. 高雅雯. 现代商贸工业. 2019(05)
[2]基于情感倾向和SVM混合极短文本分类模型[J]. 王鹤琴,王杨. 科技通报. 2018(08)
[3]抑郁症患者的表情及微表情识别[J]. 马琳,陈文锋,傅小兰,王桐桐. 科学通报. 2018(20)
[4]基于语音的抑郁症识别[J]. 潘玮,汪静莹,刘天俐,刘晓倩,刘明明,胡斌,朱廷劭. 科学通报. 2018(20)
[5]网络社交中表情符号的表达与象征意义分析[J]. 胡远珍. 湖北大学学报(哲学社会科学版). 2017(06)
[6]基于词向量的跨领域中文情感词典构建方法[J]. 冯超,梁循,李亚平,周小平,李晓菲. 数据采集与处理. 2017(03)
[7]机器学习与语义规则融合的微博情感分类方法[J]. 姜杰,夏睿. 北京大学学报(自然科学版). 2017(02)
[8]农业搜索引擎中文分词工具对比[J]. 赵涛,张太红. 计算机系统应用. 2016(04)
[9]抑郁症的识别、预防与处置[J]. 余江. 政工导刊. 2015(06)
[10]新浪微博用户中自杀死亡和无自杀意念者特征差异的研究[J]. 管理,郝碧波,刘天俐,程绮瑾,叶兆辉,朱廷劭. 中华流行病学杂志. 2015 (05)
硕士论文
[1]基于深度学习的知乎标题的多标签文本分类[D]. 张闯.北京交通大学 2018
[2]基于卷积神经网络的短文本表示与分类研究[D]. 王儒.山东师范大学 2018
[3]基于微博表情符号的中文情感词典构建方法研究[D]. 贾一凡.兰州理工大学 2018
[4]基于深度学习的微博文本情感分析研究[D]. 宋梦姣.南京大学 2018
[5]中文情感词典构建中词向量学习技术的研究与应用[D]. 杨玉凡.南京大学 2018
[6]基于扩展词典和规则的中文微博情感分析[D]. 李继东.北京交通大学 2018
[7]面向电子病例数据发布的隐私保护算法研究[D]. 林国滨.福建师范大学 2017
[8]微博社交网络中的学生用户抑郁症识别方法研究[D]. 李鹏宇.哈尔滨工业大学 2014
本文编号:3548274
【文章来源】:北京工业大学北京市 211工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
常见通用情感词典Figure1-1GeneralEmotionalDictionary虽然通用情感有词典规模大、通用性强、领域广、准确率高等优势,但是领
北京工业大学工学硕士学位论文入、隐藏、输出三层。CBOW 的基本思想是:利用上下文语境预测目标词的,如公式(2-1)。其输入层为上下文词汇的 one-hot 编码向量,通过矩阵W换映射到隐藏层,隐藏层最后是一个 N 维向量,输出层为目标词的 one-hot向量。Skip-gram 模型则是利用目标词预测上下文语境的概率,与其正好相公式(2-2),具体的模型如图 2-1。(|,,,)ttkt2 t1t1t2tkPWWWWWWW (2-1)(,,,|)tkt2 t1t1t2tktPWWWWWWW (2-2)
较为传统的微博文本分类算法是基于浅层的机器学习算法,主要向量机算法、朴素贝叶斯算法和 K 最近邻算法等。这类算法主要是通过验数据进行标注,并根据场景需求提取相应文本特征,基于这些特征构模型,通过实验语料进行训练和测试,最终得出分类结果。本节对这些进行简单介绍:支持向量机(Support Vector Machine, SVM)是一种基于有监督义线性分类器,其决策边界是对学习样本求解的最大边距超平面,既在上的分类间隔最大化的二分类算法[28-30]。它在文本分类相关领域有广泛的核心原理是在特征空间上寻找到超平面,该平面使得正负数据最大程平面,既分类间隔达到最优,相当于获取更强的泛化能力,求解相应的凸的问题[31]。因此最优的模型必然就是找到最大程度地将数据点划分开要不偏不倚,不能靠近负样本也不能靠近正样本,并且与所有支持向量量大才可以。图 2-2 形象的刻画了它的底层计算模型:
【参考文献】:
期刊论文
[1]抑郁症治疗的研究进展评述[J]. 高雅雯. 现代商贸工业. 2019(05)
[2]基于情感倾向和SVM混合极短文本分类模型[J]. 王鹤琴,王杨. 科技通报. 2018(08)
[3]抑郁症患者的表情及微表情识别[J]. 马琳,陈文锋,傅小兰,王桐桐. 科学通报. 2018(20)
[4]基于语音的抑郁症识别[J]. 潘玮,汪静莹,刘天俐,刘晓倩,刘明明,胡斌,朱廷劭. 科学通报. 2018(20)
[5]网络社交中表情符号的表达与象征意义分析[J]. 胡远珍. 湖北大学学报(哲学社会科学版). 2017(06)
[6]基于词向量的跨领域中文情感词典构建方法[J]. 冯超,梁循,李亚平,周小平,李晓菲. 数据采集与处理. 2017(03)
[7]机器学习与语义规则融合的微博情感分类方法[J]. 姜杰,夏睿. 北京大学学报(自然科学版). 2017(02)
[8]农业搜索引擎中文分词工具对比[J]. 赵涛,张太红. 计算机系统应用. 2016(04)
[9]抑郁症的识别、预防与处置[J]. 余江. 政工导刊. 2015(06)
[10]新浪微博用户中自杀死亡和无自杀意念者特征差异的研究[J]. 管理,郝碧波,刘天俐,程绮瑾,叶兆辉,朱廷劭. 中华流行病学杂志. 2015 (05)
硕士论文
[1]基于深度学习的知乎标题的多标签文本分类[D]. 张闯.北京交通大学 2018
[2]基于卷积神经网络的短文本表示与分类研究[D]. 王儒.山东师范大学 2018
[3]基于微博表情符号的中文情感词典构建方法研究[D]. 贾一凡.兰州理工大学 2018
[4]基于深度学习的微博文本情感分析研究[D]. 宋梦姣.南京大学 2018
[5]中文情感词典构建中词向量学习技术的研究与应用[D]. 杨玉凡.南京大学 2018
[6]基于扩展词典和规则的中文微博情感分析[D]. 李继东.北京交通大学 2018
[7]面向电子病例数据发布的隐私保护算法研究[D]. 林国滨.福建师范大学 2017
[8]微博社交网络中的学生用户抑郁症识别方法研究[D]. 李鹏宇.哈尔滨工业大学 2014
本文编号:3548274
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3548274.html