面向网络评论信息的自动摘要技术研究与应用
发布时间:2024-10-04 21:46
随着智能互联网时代的到来,人们大量使用移动设备对购物、旅游等活动发表自己的看法和评论。这些评论的数目急速增长,很多网站的评论数目达到千万量级甚至更多。由于数量巨大,用户在浏览时非常费时,急需对大量评论做有效摘要以缓解阅读压力。不同于一般的文本摘要,在对评论进行摘要时,用户对评论对象的aspect以及相应的评价意见信息尤为关注,因此,需要特别进行这些信息的抽取和挖掘,并在此基础上开展评论的摘要。为此,本文在分析相关工作的基础上,从评论信息抽取和摘要两方面开展工作,其主要内容包括:提出了一种基于多关联自举的评论信息抽取算法。定义并量化了评论句中三种aspect词和意见词之间的关联关系,基于此构建了半监督自举算法。该算法首先从给定的评论语料中抽取一组候选aspect词和一组候选意见词作为初始种子集,依据定义的三种关联关系,循环提取与种子集合有强关联的词语。实验结果显示在手机评论语料集上的F-measure为78.8%,比基线DP模型高9.6%,表明算法能够较有效提取aspect词及其对应的意见词,且实验对比曲线表明算法对于种子集的规模要求较低,降低了标注成本。提出了一种基于潜在狄利克雷(LDA...
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章. 引言
1.1 研究背景及意义
1.2 研究现状
1.2.1 评论分析
1.2.2 文本自动摘要
1.2.3 问题分析
1.3 研究内容与贡献
1.4 章节安排
第二章. 基础模型
2.1 隐马尔可夫模型
2.2 主题模型
2.2.1 隐含狄利克雷分布
2.2.2 Gibbs抽样及推理
2.2.3 句法建模
2.2.4 利用HMM的LDA模型
2.3 深度学习
2.3.1 LSTM模型
2.3.2 注意力机制
2.4 本章小结
第三章. 基于多关联自举的评论信息抽取算法
3.1 引言
3.2 任务描述
3.2.1 描述
3.2.2 符号说明
3.3 算法描述
3.3.1 三种关联关系
3.3.2 两种量化关联关系模型
3.3.3 基于多关联的自举算法
3.4 实验
3.4.1 实验数据
3.4.2 实验设置
3.4.3 实验结果及分析
3.5 本章小结
第四章. 基于LDA的评论信息主题建模
4.1 引言
4.2 基于LDA的评论信息主题建模
4.2.1 模型简介
4.2.2 符号说明及模型的图表示
4.2.3 模型的形式化描述
4.3 推理方法
4.4 超参数估计
4.5 实验
4.5.1 实验数据
4.5.2 实验设置
4.5.3 实验结果及分析
4.6 本章小结
第五章. 基于层次注意力机制的摘要句子提取
5.1 引言
5.2 模型
5.2.1 句子编码器
5.2.2 文档编码器
5.2.3 句子输出器
5.2.4 摘要句子排序
5.3 实验
5.3.1 实验数据
5.3.2 实验设置
5.3.3 摘要的评估方法
5.3.4 实验结果及分析
5.4 本章小结
第六章. 在线评论的自动摘要原型系统实现
6.1 原型系统
6.1.1 系统设计
6.1.2 系统实现
6.2 摘要的层次展示设计
6.2.1 摘要句子相似度测量
6.2.2 摘要中的子主题聚类
6.2.3 聚类结果及分析
6.3 系统展示
6.4 本章小结
第七章. 总结与展望
7.1 工作总结
7.2 下一步研究展望
参考文献
附录一 缩略词表
附录二 TripAdvisor数据集aspect词
致谢
攻读学位期间发表的学术论文目录
本文编号:4007181
【文章页数】:112 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章. 引言
1.1 研究背景及意义
1.2 研究现状
1.2.1 评论分析
1.2.2 文本自动摘要
1.2.3 问题分析
1.3 研究内容与贡献
1.4 章节安排
第二章. 基础模型
2.1 隐马尔可夫模型
2.2 主题模型
2.2.1 隐含狄利克雷分布
2.2.2 Gibbs抽样及推理
2.2.3 句法建模
2.2.4 利用HMM的LDA模型
2.3 深度学习
2.3.1 LSTM模型
2.3.2 注意力机制
2.4 本章小结
第三章. 基于多关联自举的评论信息抽取算法
3.1 引言
3.2 任务描述
3.2.1 描述
3.2.2 符号说明
3.3 算法描述
3.3.1 三种关联关系
3.3.2 两种量化关联关系模型
3.3.3 基于多关联的自举算法
3.4 实验
3.4.1 实验数据
3.4.2 实验设置
3.4.3 实验结果及分析
3.5 本章小结
第四章. 基于LDA的评论信息主题建模
4.1 引言
4.2 基于LDA的评论信息主题建模
4.2.1 模型简介
4.2.2 符号说明及模型的图表示
4.2.3 模型的形式化描述
4.3 推理方法
4.4 超参数估计
4.5 实验
4.5.1 实验数据
4.5.2 实验设置
4.5.3 实验结果及分析
4.6 本章小结
第五章. 基于层次注意力机制的摘要句子提取
5.1 引言
5.2 模型
5.2.1 句子编码器
5.2.2 文档编码器
5.2.3 句子输出器
5.2.4 摘要句子排序
5.3 实验
5.3.1 实验数据
5.3.2 实验设置
5.3.3 摘要的评估方法
5.3.4 实验结果及分析
5.4 本章小结
第六章. 在线评论的自动摘要原型系统实现
6.1 原型系统
6.1.1 系统设计
6.1.2 系统实现
6.2 摘要的层次展示设计
6.2.1 摘要句子相似度测量
6.2.2 摘要中的子主题聚类
6.2.3 聚类结果及分析
6.3 系统展示
6.4 本章小结
第七章. 总结与展望
7.1 工作总结
7.2 下一步研究展望
参考文献
附录一 缩略词表
附录二 TripAdvisor数据集aspect词
致谢
攻读学位期间发表的学术论文目录
本文编号:4007181
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/4007181.html