面向海量数据的用户观点抽取技术实现与应用

发布时间:2021-04-27 08:26
  随着互联网的普及,人们的消费习惯正逐渐发生变化。精明的消费者在进行消费之前,往往都会先在互联网搜集相关资料,包括查看产品或者服务的信息和其他消费者的评价信息等,以进一步指导自己的消费行为。但是,要在茫茫数据的海洋中提炼出其他消费者的评价并进行归纳,显然是一件费时费力的事情。观点抽取技术旨在实现机器对评价信息的自动提炼,一方面可以帮助消费者更快更好地做出决策,另一方面也有助于生产商等企业更好地监控自己的产品。本文的主要研究内容为:1)通过词向量模型,聚类和规则等多种方法对文本进行有效的预处理;2)通过构建完善的情感词库和产品特征词库,利用依存句法分析构建出产品特征词和情感词之间的语法结构路径,并通过微博表情符号对千万量级别的微博语料进行自动情感倾向标注训练得到情感极性分类器,从而有效识别出评论文本的观点;3)通过提取文本中的多个特征,使用SVM分类器对目标产品与评论观点之间的相关性进行过滤,进一步提高了抽取的准确率;4)本文基于上述的抽取方法,实现了一个面向海量数据多领域的实时口碑监测系统,该系统包括了基于分布式计算框架Spark的网络爬虫模块,基于Hadoop RPC的抽取模块和用于帮... 

【文章来源】:中山大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 概述
    1.1 背景与意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 论文组织结构
第2章 技术基础
    2.1 知识库
    2.2 机器学习
    2.3 分布式技术
第3章 需求分析
    3.1 观点抽取问题定义
    3.2 口碑监测系统的需求分析
第4章 观点抽取技术实现
    4.1 数据清洗
    4.2 信息抽取
    4.3 抽取过滤
第5章 口碑系统设计与实现
    5.1 系统概述
    5.2 网络爬虫模块
    5.3 观点抽取模块
    5.4 口碑系统展示模块
第6章 方案展示与应用
    6.1 开发环境
    6.2 部署环境
    6.3 方案展示
第7章 总结与展望
    7.1 总结
    7.2 未来工作展望
参考文献
致谢


【参考文献】:
期刊论文
[1]基于CRF模型的半监督学习迭代观点句识别研究[J]. 丁晟春,文能,蒋婷,孟美任.  情报学报. 2012 (10)
[2]基于层次结构的多策略中文微博情感分析和特征抽取[J]. 谢丽星,周明,孙茂松.  中文信息学报. 2012(01)
[3]一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 杨鼎,阳爱民.  计算机应用研究. 2010(10)
[4]使用Logistic回归模型进行中文文本分类[J]. 李新福,赵蕾蕾,何海斌,李芳.  计算机工程与应用. 2009(14)
[5]基于向量空间模型的文本聚类算法[J]. 姚清耘,刘功申,李翔.  计算机工程. 2008(18)
[6]基于HowNet的词汇语义倾向计算[J]. 朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.  中文信息学报. 2006(01)
[7]聚焦爬虫技术研究综述[J]. 周立柱,林玲.  计算机应用. 2005(09)



本文编号:3163132

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3163132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e9544***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com