当前位置:主页 > 科技论文 > 软件论文 >

网商用户评论中错别字自动检测与纠正的研究及实现

发布时间:2017-09-21 08:37

  本文关键词:网商用户评论中错别字自动检测与纠正的研究及实现


  更多相关文章: 网商用户评论 错别字 自动检测算法 自动纠正算法


【摘要】:在电子商务迅速发展的背景下,网络购物平台积累了海量的用户评论。挖掘网商用户评论中的隐含信息对于商家和消费者至关重要,而评论中的错别字是影响挖掘准确性的关键因素。因此,自动检测和纠正评论中的错别字具有重要意义。目前对网商用户评论中错别字的自动检测和纠正还没有完好解决,如何提高自动检测和纠正的准确率是一个重要课题。本文主要工作:(1)针对检测过程中词语间关联度弱导致的错别字误报问题,提出了基于词向量的错别字自动检测算法。利用词向量技术对评论中的疑似词进行同义词替换,得到基于词向量的关联度。综合词向量关联度和语境概率两个因素,筛选出包含错别字的评论,并更精准的确定错别字在评论中的位置。最终检测准确率比现有方法提高了5.03%。(2)针对错别字自动纠正准确率低的问题,提出了基于权重机制的错别字自动纠正算法。该算法通过合并评论中的疑似词,生成疑似合并词,为获取正确候选词奠定了基础。在对字音相似和字形相似的候选词排序时,引入了候选词与疑似词的相似权重,优化了候选词的排序问题。在确定最佳候选词时,考虑了候选词的概率分布,将区分度大的第一候选词作为最佳候选词,解决了正确词被错误纠正的问题。最终纠错准确率比现有方法提高了24.20%。(3)针对网商用户评论中的数据噪声问题,在传统的数据预处理的基础上,对水军评论进行了过滤,成功过滤了15.03%的评论数据,提高了训练语料数据的准确性。此外,通过对评论中的同类别属性词进行替换,降低了特征向量的空间维度,减少了系统存储开销。(4)本研究经过实验验证达到了实用要求,并已经成功应用于联想研究院“用户反馈分析系统”,系统运行稳定、可靠。
【关键词】:网商用户评论 错别字 自动检测算法 自动纠正算法
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 绪论10-16
  • 1.1 研究背景及意义10-11
  • 1.1.1 研究背景10
  • 1.1.2 研究意义10-11
  • 1.2 国内外研究现状11-13
  • 1.2.1 国外研究现状11-12
  • 1.2.2 国内研究现状12-13
  • 1.3 课题来源13
  • 1.4 本文主要研究内容13-14
  • 1.5 本文结构安排14-16
  • 第2章 相关技术介绍16-26
  • 2.1 统计语言模型16-19
  • 2.1.1 N-gram语言模型16-17
  • 2.1.2 数据平滑技术17-19
  • 2.2 传统检测和纠正算法19-21
  • 2.2.1 纠错字典算法19
  • 2.2.2 编辑距离算法19-21
  • 2.2.3 基于统计的检错算法21
  • 2.3 词向量21-25
  • 2.3.1 词向量概述21-22
  • 2.3.2 词向量训练22-23
  • 2.3.3 词向量训练工具23-25
  • 2.4 本章小结25-26
  • 第3章 基于词向量的错别字自动检测算法26-36
  • 3.1 问题描述26-27
  • 3.1.1 网商用户评论中错别字产生原因26-27
  • 3.1.2 现有检测算法的不足27
  • 3.2 算法框架27-29
  • 3.3 关联度计算29-34
  • 3.3.1 初始关联度计算29-31
  • 3.3.2 基于词向量的关联度计算31-34
  • 3.4 概率统计34-35
  • 3.5 疑似评论筛选35
  • 3.6 本章小结35-36
  • 第4章 基于权重机制的错别字自动纠正算法36-48
  • 4.1 问题描述36-39
  • 4.1.1 错别字类型36-38
  • 4.1.2 现有纠错算法的不足38-39
  • 4.2 算法框架39
  • 4.3 疑似词合并39-41
  • 4.4 候选词生成41-44
  • 4.4.1 字音相似度计算41-43
  • 4.4.2 字形相似度计算43-44
  • 4.4.3 候选词合并44
  • 4.5 最佳候选词生成44-47
  • 4.5.1 候选词排序44-45
  • 4.5.2 候选词替换45-47
  • 4.6 本章小结47-48
  • 第5章 错别字自动检测与纠正的实现48-68
  • 5.1 错别字自动检测与纠正整体设计48-49
  • 5.2 数据预处理49-54
  • 5.2.1 水军评论过滤49-52
  • 5.2.2 数据替换52-53
  • 5.2.3 分词53-54
  • 5.3 语言模型的训练54-55
  • 5.4 基于词向量的错别字自动检测算法的实现55-60
  • 5.4.1 关联度计算55-56
  • 5.4.2 概率计算56
  • 5.4.3 错别字检测56-57
  • 5.4.4 结果分析57-60
  • 5.5 基于权重机制的错别字自动纠正算法的实现60-66
  • 5.5.1 候选词生成60-62
  • 5.5.2 错别字纠正62-63
  • 5.5.3 结果分析63-66
  • 5.6 本章小结66-68
  • 结论68-70
  • 参考文献70-74
  • 攻读硕士学位期间所获得的学术成果74-76
  • 致谢76


本文编号:893475

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/893475.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e3f04***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com