网商用户评论中错别字自动检测与纠正的研究及实现

发布时间：2017-09-21 08:37

本文关键词：网商用户评论中错别字自动检测与纠正的研究及实现

【摘要】：在电子商务迅速发展的背景下,网络购物平台积累了海量的用户评论。挖掘网商用户评论中的隐含信息对于商家和消费者至关重要,而评论中的错别字是影响挖掘准确性的关键因素。因此,自动检测和纠正评论中的错别字具有重要意义。目前对网商用户评论中错别字的自动检测和纠正还没有完好解决,如何提高自动检测和纠正的准确率是一个重要课题。本文主要工作:(1)针对检测过程中词语间关联度弱导致的错别字误报问题,提出了基于词向量的错别字自动检测算法。利用词向量技术对评论中的疑似词进行同义词替换,得到基于词向量的关联度。综合词向量关联度和语境概率两个因素,筛选出包含错别字的评论,并更精准的确定错别字在评论中的位置。最终检测准确率比现有方法提高了5.03%。(2)针对错别字自动纠正准确率低的问题,提出了基于权重机制的错别字自动纠正算法。该算法通过合并评论中的疑似词,生成疑似合并词,为获取正确候选词奠定了基础。在对字音相似和字形相似的候选词排序时,引入了候选词与疑似词的相似权重,优化了候选词的排序问题。在确定最佳候选词时,考虑了候选词的概率分布,将区分度大的第一候选词作为最佳候选词,解决了正确词被错误纠正的问题。最终纠错准确率比现有方法提高了24.20%。(3)针对网商用户评论中的数据噪声问题,在传统的数据预处理的基础上,对水军评论进行了过滤,成功过滤了15.03%的评论数据,提高了训练语料数据的准确性。此外,通过对评论中的同类别属性词进行替换,降低了特征向量的空间维度,减少了系统存储开销。(4)本研究经过实验验证达到了实用要求,并已经成功应用于联想研究院“用户反馈分析系统”,系统运行稳定、可靠。
【关键词】：网商用户评论 错别字 自动检测算法 自动纠正算法
【学位授予单位】：北京工业大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP391.1
【目录】：

摘要4-5
Abstract5-10
第1章绪论10-16
1.1 研究背景及意义10-11
1.1.1 研究背景10
1.1.2 研究意义10-11
1.2 国内外研究现状11-13
1.2.1 国外研究现状11-12
1.2.2 国内研究现状12-13
1.3 课题来源13
1.4 本文主要研究内容13-14
1.5 本文结构安排14-16
第2章相关技术介绍16-26
2.1 统计语言模型16-19
2.1.1 N-gram语言模型16-17
2.1.2 数据平滑技术17-19
2.2 传统检测和纠正算法19-21
2.2.1 纠错字典算法19
2.2.2 编辑距离算法19-21
2.2.3 基于统计的检错算法21
2.3 词向量21-25
2.3.1 词向量概述21-22
2.3.2 词向量训练22-23
2.3.3 词向量训练工具23-25
2.4 本章小结25-26
第3章基于词向量的错别字自动检测算法26-36
3.1 问题描述26-27
3.1.1 网商用户评论中错别字产生原因26-27
3.1.2 现有检测算法的不足27
3.2 算法框架27-29
3.3 关联度计算29-34
3.3.1 初始关联度计算29-31
3.3.2 基于词向量的关联度计算31-34
3.4 概率统计34-35
3.5 疑似评论筛选35
3.6 本章小结35-36
第4章基于权重机制的错别字自动纠正算法36-48
4.1 问题描述36-39
4.1.1 错别字类型36-38
4.1.2 现有纠错算法的不足38-39
4.2 算法框架39
4.3 疑似词合并39-41
4.4 候选词生成41-44
4.4.1 字音相似度计算41-43
4.4.2 字形相似度计算43-44
4.4.3 候选词合并44
4.5 最佳候选词生成44-47
4.5.1 候选词排序44-45
4.5.2 候选词替换45-47
4.6 本章小结47-48
第5章错别字自动检测与纠正的实现48-68
5.1 错别字自动检测与纠正整体设计48-49
5.2 数据预处理49-54
5.2.1 水军评论过滤49-52
5.2.2 数据替换52-53
5.2.3 分词53-54
5.3 语言模型的训练54-55
5.4 基于词向量的错别字自动检测算法的实现55-60
5.4.1 关联度计算55-56
5.4.2 概率计算56
5.4.3 错别字检测56-57
5.4.4 结果分析57-60
5.5 基于权重机制的错别字自动纠正算法的实现60-66
5.5.1 候选词生成60-62
5.5.2 错别字纠正62-63
5.5.3 结果分析63-66
5.6 本章小结66-68
结论68-70
参考文献70-74
攻读硕士学位期间所获得的学术成果74-76
致谢76

，

本文编号：893475

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/893475.html

上一篇：基于EEG与计算机视觉的人脸检索闭环系统
下一篇：光学拼接焦平面重叠像元数计算

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|