当前位置:主页 > 科技论文 > 搜索引擎论文 >

针对QA问题的敏感代价排序学习算法的研究

发布时间:2019-07-16 06:46
【摘要】:搜索引擎技术能帮助人们寻找到他们想要的信息,但随着目前的搜索引擎技术和互联网技术的飞速发展,网络信息呈明显的爆炸性增长的上升趋势,有时不能帮助人们快速、准确地获得他们需要的信息。问答系统是在传统的搜索引擎技术的基础上发展起来的新的精确的搜索技术。 近年来,越来越多的QA问题(QuestionAnswer)频频出现在各种网站上面,如QA论坛或社区。把(QA,thread)作为一个重要的知识资源的挑战是如何能根据答案质量自动排序的问题。因为(QA,thread)中回答的质量良莠不齐,几乎所有的QA论坛和社区,对答案不做任何处理。明显,这将导致用户体验产生负面影响。在本文对这项的研究中,对于答案质量问题,在考虑代价的前提下,运用排序学习算法,主要工作和创新表现在以下几个方面。 首先,以百度知道为数据源,,抽象出问题答案对的特征向量,把产生出的数据集用于训练排序模型,并在现有的特征选择算法基础上提出改进的面向排序学习的锦标赛排序特征选择方法。 其次,分析了排序支持向量机在问答系统排序中存在的一些问题,然后把敏感代价排序学习算法应用到排序支持向量机中,提出敏感代价和基于位置的敏感代价排序学习算法。该算法认为在答案对序列顶部比在答案对中间或结尾所犯错误要付出的代价更大,所以敏感代价考虑顺序学习算法分析了问答对的分类信息,比如答案和问题是相关的、部分相关的、完全不相关的等。基于位置的敏感代价排序学习算法不仅考虑了问答对元素的前部和后部的分类信息,而且要考虑其位置信息。 然后,用公式证明敏感代价排序学习算法和基于位置的敏感代价排序学习算法的损失函数是凸性并具有一次可导性,可用梯度下降优化方法。 最后,把以上提出的面向排序学习的锦标赛排序特征选择方法、敏感代价排序学习算法和基于位置的敏感代价顺序学习算法应用到百度知道的实验数据集中,从而训练出新的排序模型,并对实验结果进行了分析和讨论。实验结果表明,新提出的特征选择方法和排序学习算法的性能均高于比原来的排序学习方法。
文内图片:“百度知道”QAthread样例Figure5-2TheQAthreadofbaiduknow在抓取到“百度知道”的问题答案对后,我们对问题和答案进行分析,抽象出一些特征,用这些特征组成的特征向量来表示问题和答案的相关度
图片说明: 第 5 章 实验系统设计与实验结果“医疗健康”、“体育/运动”、“电子数码”、“商业/理财”、“教育/科学”、“社会/民生”、“文化/艺术”等。我们的数据集取自“百度知道”的“电子/数码”分类,试验需要从 QA 论坛上抓取一些问题答案对(QA ,thread)来提取用于获取排序模型的训练数据。一共从中抓取了 3259 个(QA ,thread),其中包括问题 3259个,答案 17385 个。图 5-2 为我们给出的“百度知道”中“电子/数码”分类下的一个(QA ,thread)。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP391.3;TP181

【参考文献】

相关期刊论文 前5条

1 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期

2 陈彬,洪家荣,王亚东;最优特征子集选择问题[J];计算机学报;1997年02期

3 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期

4 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期

5 万忠;张燕平;张铃;陈洁;张晨希;张迎春;;基于覆盖算法决策界的特征选择算法[J];计算机技术与发展;2006年04期



本文编号:2514901

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2514901.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb23b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com