HSK作文切题指标的计量研究
发布时间:2022-05-05 19:44
HSK是来华留学生所需要参加的汉语水平考试,当前对HSK作文评分自动化的需求逐步上升,而在作文自动评分中,切题指标是影响分数的重要指标。切题指标用来描述作者写作的文章与题目所设定主题的相符程度。基于HSK作文数据集进行研究,通过提取文章的关键词,计算其与对应题目词的相似度来得到这一指标。将4种文章关键词提取方法 (LDA、TextRank、TF-IDF和H-point)和两种相似度计算方法 (基于Word2vec的词向量法和基于JS散度的主题分布相似性法)组合得出8种计算切题指标分数的方法,并通过切题指标分数与文章总分的相关系数来评估方法的合理性。实验结果表明,在这8种方法中,TextRank+主题分布相似性法计算出来的切题指标分数与实际总分的相关系数表现最佳,得出的切题指标分数最为合理。
【文章页数】:3 页
【文章目录】:
1 概述
2 相关技术与定义
2.1 关键词提取方法[1]
2.1.1 TextRank
2.1.2 TF-IDF
2.1.3 LDA[2]
2.1.4 H-point
2.2 相似性计算方法
2.2.1 词向量法[3]
2.2.2 主题分布相似性法[4]
2.3 评估方法———相关系数法
3 实验与结果分析
3.1 数据集
3.2 LDA模型训练
3.3 实验设计
3.4 实验结果
4 结语
【参考文献】:
期刊论文
[1]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[2]LDA主题模型[J]. 邹晓辉,孙静. 智能计算机与应用. 2014(05)
[3]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[4]一种基于密度的自适应最优LDA模型选择方法[J]. 曹娟,张勇东,李锦涛,唐胜. 计算机学报. 2008(10)
硕士论文
[1]中文关键词提取技术[D]. 梁伟明.上海交通大学 2010
本文编号:3650892
【文章页数】:3 页
【文章目录】:
1 概述
2 相关技术与定义
2.1 关键词提取方法[1]
2.1.1 TextRank
2.1.2 TF-IDF
2.1.3 LDA[2]
2.1.4 H-point
2.2 相似性计算方法
2.2.1 词向量法[3]
2.2.2 主题分布相似性法[4]
2.3 评估方法———相关系数法
3 实验与结果分析
3.1 数据集
3.2 LDA模型训练
3.3 实验设计
3.4 实验结果
4 结语
【参考文献】:
期刊论文
[1]基于LDA和word2vec的英文作文跑题检测[J]. 曲强,崔荣一,赵亚慧. 计算机应用研究. 2019(02)
[2]LDA主题模型[J]. 邹晓辉,孙静. 智能计算机与应用. 2014(05)
[3]基于LDA主题模型的文本相似度计算[J]. 王振振,何明,杜永萍. 计算机科学. 2013(12)
[4]一种基于密度的自适应最优LDA模型选择方法[J]. 曹娟,张勇东,李锦涛,唐胜. 计算机学报. 2008(10)
硕士论文
[1]中文关键词提取技术[D]. 梁伟明.上海交通大学 2010
本文编号:3650892
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3650892.html