基于语言特征的中文微博自杀意念检测方法研究
发布时间:2024-02-19 23:02
自杀是导致当近人类死亡的三大因素之一。因此,自杀意念识别已刻不容缓。而传统的自杀意念检测方法大都基于n-gram特征,此后为提升模型检测的准确率,在原输入特征中加入了基于训练数据的自杀词典,但其所得模型的准确率仍不理想。针对自杀意念识别准确率不理想的状况,建立一个可迁移性强的自杀词典,以该自杀词典与词性特征组成的语言特征为新式特征加入模型,以期提高模型的识别准确率。采用对比试验与控制变量的形式,将n-gram特征、语言特征作为模型输入,以随机森林、逻辑回归、支持向量机和朴素贝叶斯算法构建分类模型,重点研究语言特征对原模型性能的影响。通过比较发现:语言特征对原模型性能的提升是显著的,在随机森林算法下,这种提升达到了20%左右。贡献:(1)本论文提供了一个领域内的、且可迁移性强的自杀词典;(2)提出了语言特征,并证明了语言特征对基于n-gram特征与基于n-gram特征和词典模型的性能有所提高;(3)试验了不同分类算法在n-gram特征、词典特征、语言特征下的模型性能,为特征与算法的选择提供了一定的依据。
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
本文编号:3903458
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2-1.Logisticdistribution的密度函数与分布函数图形
归又被称为对率回归、逻辑斯蒂回归,是一种经典的机器学习分类算法介绍该分类算法的数学原理、特点及其优缺点。ticDistribution1(LogisticDistribution)设X是连续随机变量,X服从逻辑斯蒂分布是布函数和密度函数:1exp(()/)1()()....
图2-2.支持向量与间隔(1)学习策略
ii)0,then按如下规则更新参数iiwyx,ibby;直至训练集中没有误分类点.量机分支持向量机)给定线性可分的训练数据集二次规划问题学习得到的分离超平面为0**wxb函数为()()**fxsigwnxb向量机[44]。
图4-1正样例“文心”语言分析结果
中北大学学位论文LinguisticInquiryandWordCount)的语言分析软件。它可分析出包含表4-1的词性在内的102项特征,可对句子中的词性成分进行分析,计算出其在句子中所占的比图4-1、4-2为正负样本使用“文心”软件进行语言分析的结果。具体的....
图4-2负样例“文心”语言分析结果
Step1将数据输入“文心”软件中,选择LTP模式,输出分析结果;Step2从Step1的结果中选取实验所需的词性特征,记录该值;Step3使用式(3.4)对数值进行归一化处理;Step4对词性特征中的句子长度(词数)根据所有数据的长度做归一化处理。图....
本文编号:3903458
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3903458.html
最近更新
教材专著