基于文本挖掘的在线论坛用户心理健康自动评估

发布时间：2020-07-28 09:04

【摘要】：心理健康论坛是一个有着心理咨询专家维护的服务性质的在线社区,人们可以在那里匿名表达他们的心理健康问题并寻求心理咨询专家或者其他用户地帮助。在这样的论坛中经常存在正遭受着痛苦甚至随时会进行自我伤害的用户,心理咨询专家需要及时发现并回应这样的用户以防止他们进行自我伤害,但是论坛中每日发布的帖子数以千计,导致心理咨询专家难以及时找到这样的用户并及时回复,因此自动评估在线论坛用户的心理健康显得格外重要。本文针对CLPsych2017发布的在线论坛用户数据信息,从两个方面构建模型对论坛中帖子所反映的用户(心理健康状况)需要干预的紧急程度(crisis:非常紧急,red:紧急,amber:不紧急,green:不需要任何干预)进行自动评估:(1)基于多特征融合的在线论坛用户心理健康自动评估框架F~3TMH。该框架采用贪婪法F~3TMH_G、投票法F~3TMH_V、后期融合法F~3TMH_L和降噪自编码器法F~3TMH_DA四种特征融合策略,融合帖子(或其作者)的行为与属性特征、语言或用词风格特征、内容特征(N-Grams特征、主题特征、词向量特征)、上下文特征来构建自动评估模型。实验发现,相较于其他特征,词向量特征在自动评估在线论坛用户心理健康危机程度的问题上表现更好;后期融合策略F~3TMH_L_2更有利于识别心理健康危机程度较高的用户(crisis和red类帖子),自编码融合策略对于识别数据量相对较多的Flagged类(所有非green类的并集)帖子更有优势。(2)心理学知识指导下的心理健康自动评估CNN模型。提出基于心理学知识LIWC词典的卷积神经网络模型LIWC-CNN,挖掘LIWC词典在不同类别帖子中的词频的统计特征,并据此来指导卷积神经网络来提取更有利于识别需要干预的帖子(crisis和red)。实验结果显示,与其他方法相比,本文使用的方法在牺牲green类帖子(不需要干预)识别准确率的代价下,能够提高对于crisis和red类帖子(需要紧急干预)的识别效果,体现出心理学知识在深度学习特征提取过程中的指导作用。
【学位授予单位】：江西财经大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：R-05;TP391.1;TP183
【图文】：

语言模型,神经网络

2 相关概念概述与理论技术简介，一般取值范围在-1 到 1 之间，向量的维度可以依据语料库和任务需求自行设，一般为 50 到 300 之间不等，此时，词向量的表示如下表 2.2 所示。表 2.2 词的分布式表示示例I [0.1,0.5,-0.3,0.2,0.6,0,...,0.2,0.1,0.8,0.2]Love [-0.2,-0.5,0.1,0.3,0.1,-0.4,...,0,0.2,0.5,0]You [0.05,-0.03,0.01,0,0.02,0.01,...,0,0.01,0,0]向量中的每个实数值可以通过具体的任务训练得到，这种低维稠密的表示方克服了维度灾难造成的影响，而且还能充分利用空间，利于存储。如果使用合的任务进行预训练后，可以通过得到的词向量计算两个词的相似性，这对于自语言处理中的很多任务都有着不错的效果。

模型图,模型图,目标词,用户心理

基于文本挖掘的在线论坛用户心理健康自动评估随着语料的增加，NNLM 的 softmax 层词数过大，参数较多，对计算资源的要求较高，不适合推广。因此，谷歌针对此问题，开源了一种词向量计算工具——Word2Vec，由于其高效且易扩展，一经提出便受到无数好评。与神经网络语言模型不同，在 Word2Vec 模型中，目标词 wt不再是连续词串中的最后一个词，而是连续词串的中间词，也就是使用目标词的前 n 个和后 n个来预测中间词 wt或者使用中间词 wt预测上下文的 2n 个词，其中前者被称为是Continuous Bag-of-Words(CBOW)，后者是 Skip-gram，如图 2-2 所示。

森林,分类器,过拟合,随机采样

2 相关概念概述与理论技术简介量机（Support Vector Machine，SVM）。（1）随机森林随机森林是一种典型的集成学习算法，采用 Bagging 的思想，对训练样本进行多次随机采样训练多个弱分类器，然后对每个弱分类器的结果进行投票或者取均值，使得最终的模型具有较高的分类准确率和泛化能力，其中弱分类器构建一般选择决策树，如图 2-3 所示。随机森林的主要特点体现在“随机”和“森林”两个方面，前者通过随机采样保证了模型的多样性，使其不易过拟合，后者通过弱分类器的个数保证了模型的复杂度，使其具有较好分类性能。由于其实现过程简单、精度高、抗过拟合能力强，因此经常被作为任务模型的 baseline。

【参考文献】