网商用户评论中错别字自动检测与纠正的研究及实现
发布时间:2017-09-21 08:37
本文关键词:网商用户评论中错别字自动检测与纠正的研究及实现
更多相关文章: 网商用户评论 错别字 自动检测算法 自动纠正算法
【摘要】:在电子商务迅速发展的背景下,网络购物平台积累了海量的用户评论。挖掘网商用户评论中的隐含信息对于商家和消费者至关重要,而评论中的错别字是影响挖掘准确性的关键因素。因此,自动检测和纠正评论中的错别字具有重要意义。目前对网商用户评论中错别字的自动检测和纠正还没有完好解决,如何提高自动检测和纠正的准确率是一个重要课题。本文主要工作:(1)针对检测过程中词语间关联度弱导致的错别字误报问题,提出了基于词向量的错别字自动检测算法。利用词向量技术对评论中的疑似词进行同义词替换,得到基于词向量的关联度。综合词向量关联度和语境概率两个因素,筛选出包含错别字的评论,并更精准的确定错别字在评论中的位置。最终检测准确率比现有方法提高了5.03%。(2)针对错别字自动纠正准确率低的问题,提出了基于权重机制的错别字自动纠正算法。该算法通过合并评论中的疑似词,生成疑似合并词,为获取正确候选词奠定了基础。在对字音相似和字形相似的候选词排序时,引入了候选词与疑似词的相似权重,优化了候选词的排序问题。在确定最佳候选词时,考虑了候选词的概率分布,将区分度大的第一候选词作为最佳候选词,解决了正确词被错误纠正的问题。最终纠错准确率比现有方法提高了24.20%。(3)针对网商用户评论中的数据噪声问题,在传统的数据预处理的基础上,对水军评论进行了过滤,成功过滤了15.03%的评论数据,提高了训练语料数据的准确性。此外,通过对评论中的同类别属性词进行替换,降低了特征向量的空间维度,减少了系统存储开销。(4)本研究经过实验验证达到了实用要求,并已经成功应用于联想研究院“用户反馈分析系统”,系统运行稳定、可靠。
【关键词】:网商用户评论 错别字 自动检测算法 自动纠正算法
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-16
- 1.1 研究背景及意义10-11
- 1.1.1 研究背景10
- 1.1.2 研究意义10-11
- 1.2 国内外研究现状11-13
- 1.2.1 国外研究现状11-12
- 1.2.2 国内研究现状12-13
- 1.3 课题来源13
- 1.4 本文主要研究内容13-14
- 1.5 本文结构安排14-16
- 第2章 相关技术介绍16-26
- 2.1 统计语言模型16-19
- 2.1.1 N-gram语言模型16-17
- 2.1.2 数据平滑技术17-19
- 2.2 传统检测和纠正算法19-21
- 2.2.1 纠错字典算法19
- 2.2.2 编辑距离算法19-21
- 2.2.3 基于统计的检错算法21
- 2.3 词向量21-25
- 2.3.1 词向量概述21-22
- 2.3.2 词向量训练22-23
- 2.3.3 词向量训练工具23-25
- 2.4 本章小结25-26
- 第3章 基于词向量的错别字自动检测算法26-36
- 3.1 问题描述26-27
- 3.1.1 网商用户评论中错别字产生原因26-27
- 3.1.2 现有检测算法的不足27
- 3.2 算法框架27-29
- 3.3 关联度计算29-34
- 3.3.1 初始关联度计算29-31
- 3.3.2 基于词向量的关联度计算31-34
- 3.4 概率统计34-35
- 3.5 疑似评论筛选35
- 3.6 本章小结35-36
- 第4章 基于权重机制的错别字自动纠正算法36-48
- 4.1 问题描述36-39
- 4.1.1 错别字类型36-38
- 4.1.2 现有纠错算法的不足38-39
- 4.2 算法框架39
- 4.3 疑似词合并39-41
- 4.4 候选词生成41-44
- 4.4.1 字音相似度计算41-43
- 4.4.2 字形相似度计算43-44
- 4.4.3 候选词合并44
- 4.5 最佳候选词生成44-47
- 4.5.1 候选词排序44-45
- 4.5.2 候选词替换45-47
- 4.6 本章小结47-48
- 第5章 错别字自动检测与纠正的实现48-68
- 5.1 错别字自动检测与纠正整体设计48-49
- 5.2 数据预处理49-54
- 5.2.1 水军评论过滤49-52
- 5.2.2 数据替换52-53
- 5.2.3 分词53-54
- 5.3 语言模型的训练54-55
- 5.4 基于词向量的错别字自动检测算法的实现55-60
- 5.4.1 关联度计算55-56
- 5.4.2 概率计算56
- 5.4.3 错别字检测56-57
- 5.4.4 结果分析57-60
- 5.5 基于权重机制的错别字自动纠正算法的实现60-66
- 5.5.1 候选词生成60-62
- 5.5.2 错别字纠正62-63
- 5.5.3 结果分析63-66
- 5.6 本章小结66-68
- 结论68-70
- 参考文献70-74
- 攻读硕士学位期间所获得的学术成果74-76
- 致谢76
本文编号:893475
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/893475.html