面向网络社区问答对的语义挖掘研究
发布时间:2021-02-14 22:36
Web2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents, UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现,针对其开展的采集和挖掘工作具有非常重要的意义。由问题和其答案组成的问答对是用户生成内容的典型代表,是用户之间以互联网为媒介的知识分享行为的直接产物,因而由大量用户生成的问答对组成的问答资源是人类知识以网络文本为载体的体现形式之一,同时也蕴含着人类在通过网络进行交流过程中的语言规律。因此无论对于问答系统的构建还是自然语言处理研究来说,优质的问答资源都具有举足轻重的地位。网络社区(如社区型问答系统、在线论坛等)为互联网用户提供了信息交流的平台,用户在其中的知识交流和分享活动多是以提问和回答的形式进行的,因此网络社区中蕴含着大量的问答对资源。网络社区中存在数量可观的描述型问答对,这种问答信息的价值在于其有助于弥补现有自动问答系统在复杂问题上的不足,从而提高自动问答系统的整体表现。然而由于网络社区中的知识分享并不存在义务性,有价值的问答信息往往混杂在大量的无意义信息之中,因此对于问答知识库的构...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:126 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及意义
1.2 网络社区的结构与文本信息特点
1.3 国内外研究现状
1.3.1 面向cQA系统的问答信息挖掘
1.3.2 论坛话题中的问答信息发现
1.3.3 答案自动摘要
1.3.4 自动问答研究的新进展
1.3.5 研究现状总结
1.4 本文的研究内容
1.5 本文的内容安排
第2章 基于深度学习的短文本语义相关性量化
2.1 引言
2.2 复杂问答对的语言特性
2.3 受限玻尔兹曼机与深度学习
2.4 问答对语义相关性量化
2.4.1 基于问题答案联合分布的深度置信网络
2.4.2 基于答案-问题重建的深度置信网络
2.4.3 特征及模型参数
2.5 论坛与cQA文本的同质性
2.6 实验与讨论
2.6.1 实验设置
2.6.2 实验结果与分析
2.7 本章小结
第3章 基于社区非文本特征的问答对挖掘
3.1 引言
3.2 常见非文本特征在答案识别中的应用
3.3 基于话题段落划分的答案识别
3.3.1 话题段落划分
3.3.2 答案识别
3.3.3 特征集合描述
3.4 噪声环境下的问题发现
3.5 实验与讨论
3.5.1 实验设置
3.5.2 实验结果与分析
3.6 本章小结
第4章 基于统计模型的问句生成
4.1 引言
4.2 问句生成问题的不同解决方法
4.3 统计问句生成与问答系统的关系
4.4 基于深度学习的问句生成
4.4.1 架构描述
4.4.2 问句核心词语生成
4.4.3 基于模板的问句构建
4.5 实验与讨论
4.5.1 实验设置
4.5.2 实验结果与分析
4.6 本章小结
第5章 面向问答社区的答案文摘
5.1 引言
5.2 答案文摘概述
5.2.1 答案文摘的研究对象
5.2.2 答案文摘的评价指标
5.2.3 答案文摘与多文档文摘的关系
5.3 主题信息存在条件下的答案文摘
5.3.1 主题信息在答案文摘中的作用
5.3.2 基于自适应最大间隔相关模型的答案文摘
5.3.3 实验结果与分析
5.4 无主题信息的答案文摘
5.4.1 无主题信息情况下的答案文摘策略
5.4.2 基于稀疏编码的答案文摘
5.4.3 基于深度学习的答案文摘
5.4.4 实验结果与讨论
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[2]基于上下文重构的短文本情感极性判别研究[J]. 杨震,赖英旭,段立娟,李玉鑑. 自动化学报. 2012(01)
[3]基于浅层句法特征的评价对象抽取研究[J]. 徐冰,赵铁军,王山雨,郑德权. 自动化学报. 2011(10)
[4]中文社区问答中问题答案质量评价和预测[J]. 李晨,巢文涵,陈小明,李舟军. 计算机科学. 2011(06)
[5]大规模短文本的不完全聚类[J]. 彭泽映,俞晓明,许洪波,刘春阳. 中文信息学报. 2011(01)
[6]社区问答系统研究综述[J]. 张中峰,李秋丹. 计算机科学. 2010(11)
[7]多文档文摘句子优选算法研究[J]. 张姝,赵铁军,姚超,郑德权. 电子与信息学报. 2008(12)
[8]多文档自动文摘综述[J]. 秦兵,刘挺,李生. 中文信息学报. 2005(06)
博士论文
[1]多文档自动文摘关键技术研究[D]. 徐永东.哈尔滨工业大学 2007
本文编号:3033978
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:126 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及意义
1.2 网络社区的结构与文本信息特点
1.3 国内外研究现状
1.3.1 面向cQA系统的问答信息挖掘
1.3.2 论坛话题中的问答信息发现
1.3.3 答案自动摘要
1.3.4 自动问答研究的新进展
1.3.5 研究现状总结
1.4 本文的研究内容
1.5 本文的内容安排
第2章 基于深度学习的短文本语义相关性量化
2.1 引言
2.2 复杂问答对的语言特性
2.3 受限玻尔兹曼机与深度学习
2.4 问答对语义相关性量化
2.4.1 基于问题答案联合分布的深度置信网络
2.4.2 基于答案-问题重建的深度置信网络
2.4.3 特征及模型参数
2.5 论坛与cQA文本的同质性
2.6 实验与讨论
2.6.1 实验设置
2.6.2 实验结果与分析
2.7 本章小结
第3章 基于社区非文本特征的问答对挖掘
3.1 引言
3.2 常见非文本特征在答案识别中的应用
3.3 基于话题段落划分的答案识别
3.3.1 话题段落划分
3.3.2 答案识别
3.3.3 特征集合描述
3.4 噪声环境下的问题发现
3.5 实验与讨论
3.5.1 实验设置
3.5.2 实验结果与分析
3.6 本章小结
第4章 基于统计模型的问句生成
4.1 引言
4.2 问句生成问题的不同解决方法
4.3 统计问句生成与问答系统的关系
4.4 基于深度学习的问句生成
4.4.1 架构描述
4.4.2 问句核心词语生成
4.4.3 基于模板的问句构建
4.5 实验与讨论
4.5.1 实验设置
4.5.2 实验结果与分析
4.6 本章小结
第5章 面向问答社区的答案文摘
5.1 引言
5.2 答案文摘概述
5.2.1 答案文摘的研究对象
5.2.2 答案文摘的评价指标
5.2.3 答案文摘与多文档文摘的关系
5.3 主题信息存在条件下的答案文摘
5.3.1 主题信息在答案文摘中的作用
5.3.2 基于自适应最大间隔相关模型的答案文摘
5.3.3 实验结果与分析
5.4 无主题信息的答案文摘
5.4.1 无主题信息情况下的答案文摘策略
5.4.2 基于稀疏编码的答案文摘
5.4.3 基于深度学习的答案文摘
5.4.4 实验结果与讨论
5.5 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]微博文本处理研究综述[J]. 张剑峰,夏云庆,姚建民. 中文信息学报. 2012(04)
[2]基于上下文重构的短文本情感极性判别研究[J]. 杨震,赖英旭,段立娟,李玉鑑. 自动化学报. 2012(01)
[3]基于浅层句法特征的评价对象抽取研究[J]. 徐冰,赵铁军,王山雨,郑德权. 自动化学报. 2011(10)
[4]中文社区问答中问题答案质量评价和预测[J]. 李晨,巢文涵,陈小明,李舟军. 计算机科学. 2011(06)
[5]大规模短文本的不完全聚类[J]. 彭泽映,俞晓明,许洪波,刘春阳. 中文信息学报. 2011(01)
[6]社区问答系统研究综述[J]. 张中峰,李秋丹. 计算机科学. 2010(11)
[7]多文档文摘句子优选算法研究[J]. 张姝,赵铁军,姚超,郑德权. 电子与信息学报. 2008(12)
[8]多文档自动文摘综述[J]. 秦兵,刘挺,李生. 中文信息学报. 2005(06)
博士论文
[1]多文档自动文摘关键技术研究[D]. 徐永东.哈尔滨工业大学 2007
本文编号:3033978
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3033978.html