当前位置:主页 > 科技论文 > 自动化论文 >

基于机器学习的问卷可信度审核系统

发布时间:2020-08-03 08:07
【摘要】:入户问卷调查是国民普查的主要方式,每年国家财政花费巨额经费用于这些活动,期望获得准确调查数据,以把握真实情况和做出合理决策,为国民经济生活服务。但是,由于调查过程中的各种原因,导致调查问卷中存在大量不合格问卷(如问卷造假),影响了调查数据的准确性,进而影响了决策的科学性。识别不合格问卷,目前的做法是靠人工逐个审核问卷,存在效率低、成本高,主观性大等问题。随着调查活动的频率和范围的逐年增长,不合格问卷的识别需求与日俱增,亟需一种自动化甄别调查问卷系统,以解放人力、提高审核效率、降低成本,提升审核的客观性。目前,关于自动问卷审核的相关研究还不多见,基于简单规则可以审核问卷,但是需要人工定义规则,灵活性较差。近年来,机器学习在图像处理、语音处理等领域广泛应用并取得了突破性进展,为自动化审核问卷提供了可借鉴的技术和经验。因此,本研究有重要的实际意义,并拓展机器学习的应用空间。为此,本文设计并实现了基于机器学习的问卷审核系统,以自动化审核调查问卷。系统设计的关键问题是,特征工程问题,即如何从高维特征中挑选出对可信度识别贡献最大的特征,以及模型选择问题,即选择怎样的机器学习模型以(从准确率和召回率角度)更好的识别出不合格问卷。本文从音频、图像等多维度挖掘问卷复杂特征,从中提取最有价值的特征,并对比选择在数据集上表现最优的机器学习模型来训练和审核调查问卷。7万份真实问卷的训练/审核表明,本文提出的自动审核系统,AUC为0.88,F1值为0.71,满足审核需求,而且在审核效率、审核的特征维度和评分的精细程度上,远远高于人工审核,且审核过程公正客观。具体来说,本文贡献如下:(1)设计了一套基于机器学习的问卷审核系统,实现对问卷的自动审核。该系统包括有音频、图像等各个分析模块,挖掘提取问卷的高维特征,送入机器学习模型,得到问卷可信度得分。(2)设计了海量特征信息挖掘方法并完成了特征筛选,以实现特征降维和提高模型的识别性能。针对调查问卷的信息,该系统从多维度评估问卷,挖掘出上千维特征,并对高维特征进行了相关性分析和特征工程,筛选出最有价值的特征。(3)比较/评估了不同机器学习模型,以选择在测试数据集上表现最优的模型,进一步提高问卷审核系统的性能。本文比较了几种经典的机器学习模型,找到在现有数据集上表现最优的模型。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP18
【图文】:

模块图,多维度,机器学习,功能结构图


3.2.2整体设计逡逑根据自动审核问卷可信度系统的实现流程,本文可懫用分而治之的设计思路逡逑将该系统划分为四个模块,其总体结构如图3-2所示。逦逡逑音频分析模块邋逦?提取有效音频时间、静默时间、语速等逡逑_逦逦邋逦1逦返逡逑回逡逑问逦图像分析模块邋逦?提取图像人数、图像质量信息逦各逡逑卷逦丨逦丨逦逦I逦模逡逑压—?逦邋?块逡逑缩逦k逡逑包*

流程图,音频,题目,日志


不足、调查员语速过快等方面,因此本模块的重点在于提取静默时间以及按照题逡逑目划分音频,提取单个题目的特征。针对上述问题,本文设计提出了提取音频信逡逑息的流程如图3-3:逡逑逦^邋r逦逡逑输入一份问卷逡逑Y逡逑逦%煎义戏治鋈罩疚募义襄危殄五义隙砸羝等ゾ材村义咸饽壳衅义稀澹蝈五义希五义系玫揭羝堤卣骶卣箦义襄危蒎澹坼五义掀拦酪羝堤卣鳎五义铣沙跽锝峁义襄危蒎澹坼五义希驽褰崾惧五义贤迹常骋羝的?榱鞒掏煎义希疲椋纾酰颍邋澹常冲澹疲酰睿悖簦椋铮睿幔戾澹樱簦颍酰悖簦酰颍邋澹模椋幔纾颍幔礤澹铮驽澹粒酰洌椋镥澹停铮洌酰欤邋义希病垮义

本文编号:2779346

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2779346.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b4a89***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com