当前位置:主页 > 科技论文 > 搜索引擎论文 >

中文问答系统中问题分类相关技术的研究

发布时间:2017-06-11 19:12

  本文关键词:中文问答系统中问题分类相关技术的研究,由笔耕文化传播整理发布。


【摘要】:问答系统是比传统搜索引擎更智能的形式,它不要求用户输入需要检索的关键字,而可以是一个用自然语言提出的简单的句子,返回的也是精确的答案而不是与答案相关的文档或网页。问答系统主要包括三个模块:问题理解、信息检索和答案抽取。当用户输入一个问题,首先要通过问题分类来了解用户的提问目的,确定答案需要满足的条件,然后从大规模的网络中搜索出相关的信息,最后答案抽取模块根据问题类别的约束条件整理出精确的答案。问题分类是问答系统的重要部分,它不仅能够控制候选答案空间,而且能够决定答案的抽取策略,从而提高系统返回答案的准确率。问题分类的一般内容包括:分词、词干提取、去除停用词、特征提取和多类别分类。本文重点对问题分类的方法和技术进行研究,最终通过机器学习的方法实现自动问题分类。由于数据具有海量、高相关性和非线性的特点,所以如何选择原始数据的本质特征,是关系到能否有效提高问题分类器推广能力的关键问题。本文改进了目前根据所有特征以及基于词袋和词序列袋的特征选择方法,提出采用随机森林和支持向量机(SVM)相结合的方法来进行特征选择。改进了基于一对多分割二叉树支持向量机中的SMO分解算法。实验证明,这些方法能够有效的选择分类特征,分类准确率能达到87.18%。本文重点研究成果如下:1)整理数据集(娱乐方面),通过实验比较不同问题分类方法的分类精度。2)问题分类特征选择,提出三种不同深度的特征选择方法,实验结果显示采用随机森林和支持向量机相结合的方法最有效。3)采用一对多分割二叉树支持向量机的方法对问题进行分类,结合本文提出的特征选择策略,针对娱乐方面的问题实现自动问题分类。
【关键词】:机器学习 特征选择 随机森林 支持向量机 二叉树
【学位授予单位】:辽宁科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1
【目录】:
  • 中文摘要5-6
  • ABSTRACT6-9
  • 1. 绪论9-15
  • 1.1 课题研究背景和意义9-10
  • 1.2 问答系统综述10-13
  • 1.2.1 问答系统体系结构10-11
  • 1.2.2 问答系统国内外研究现状11-13
  • 1.3 本文研究主要内容13-14
  • 1.4 论文组织结构14-15
  • 2. 问答系统相关技术及算法的比较与分析15-29
  • 2.1 问题理解阶段15-18
  • 2.1.1 问句预处理15-16
  • 2.1.2 问题分类16-18
  • 2.2 信息检索阶段18
  • 2.3 答案抽取阶段18-19
  • 2.4 基于支持向量机的问题分类19-28
  • 2.4.1 支持向量机基础19-20
  • 2.4.2 二分类问题20-23
  • 2.4.3 模型及参数选择23
  • 2.4.4 分类模型准确率的估计方法23-24
  • 2.4.5 多分类模型24-28
  • 2.5 本章小结28-29
  • 3. 特征选择策略研究29-39
  • 3.1 特征选择的重要性29
  • 3.2 特征选择基础知识29-31
  • 3.2.1 信息增益(Information Gain)29-30
  • 3.2.2 互信息(Mutual Information)30
  • 3.2.3 x~2 统计30-31
  • 3.3 基本特征选择31-33
  • 3.3.1 基于bag-of-words和N-gram选择特征31
  • 3.3.2 基于词性和词意选择特征31-32
  • 3.3.3 基于依存关系选择特征32
  • 3.3.4 基于组合选择特征32-33
  • 3.4 本文提出的方法33-38
  • 3.4.1 根据分数选择特征(F+SVM)34-36
  • 3.4.2 根据分数和随机森林选择特征(F+RF+SVM)36-37
  • 3.4.3 根据随机森林和SVM相结合选择特征(RF+RM-SVM)37-38
  • 3.5 本章小结38-39
  • 4. 基于一对多分割二叉树支持向量机的问题分类39-51
  • 4.1 决策树基础知识39-43
  • 4.1.1 有向无环图支持向量机39-40
  • 4.1.2 自适应有向无环图40-41
  • 4.1.3 中心二叉树支持向量机41-43
  • 4.2 算法的主要思想43-44
  • 4.3 划分函数44
  • 4.4 SMO算法及其改进44-48
  • 4.4.1 SMO算法44-46
  • 4.4.2 改进的SMO算法46-48
  • 4.5 算法的主要过程48
  • 4.6 分类算法复杂度分析48-50
  • 4.6.1 基于SVM多分类算法复杂度比较48-49
  • 4.6.2 基于SVM和高阶支持向量机(SHTM)多分类算法的时间复杂度比较49-50
  • 4.7 本章小结50-51
  • 5. 中文问题分类系统51-61
  • 5.1 系统结构设计51-52
  • 5.2 功能模块实现52-55
  • 5.3 典型问题分类算法实验结果比较55-56
  • 5.4 本文提出的特征选择策略实验结果分析56-59
  • 5.4.1 BER值比较56-57
  • 5.4.2 分数临界值分析57-59
  • 5.4.3 问题分类精度比较59
  • 5.5 本章小结59-61
  • 6. 总结与展望61-63
  • 6.1 总结61
  • 6.2 展望61-63
  • 参考文献63-66
  • 攻读硕士学位期间发表学术论文情况66-67
  • 致谢67-68
  • 作者简介68-69

【相似文献】

中国期刊全文数据库 前10条

1 槰起;;不一定,

本文编号:442295


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/442295.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7855d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com