基于VSM和LDA模型的FAQ问答系统
本文关键词:基于VSM和LDA模型的FAQ问答系统
更多相关文章: VSM 相似度计算 LDA(Latent Dirichlet Allocation) 主题-词分布
【摘要】:传统的搜索引擎返回的数据太过庞大,很多情况下用户不能快速地找到自己要的答案。在这种情况下,文中引入FAQ系统。FAQ中如何找到最佳匹配答案,是文中的研究重点。改进了传统的VSM模型,使得它能更好地体现问题中词的权重。重点引入了LDA模型,并用计算机故障领域内的文档资料对它进行训练,得到主题-词的概率分布。通过主题-词中词的概率分布,计算词与词的相关度,提出通过词与词间相关度计算句子与句子间相似度的算法。对两个算法进行综合,得到最终的相似度算法。文中对FAQ进行整理,得到了FAQ问答系统的雏形。通过实验分析,说明相似度算法有很好的效果。
【作者单位】: 安徽大学计算机科学与技术学院;
【关键词】: VSM 相似度计算 LDA(Latent Dirichlet Allocation) 主题-词分布
【基金】:安徽省自然科学基金资助项目(11040606M133)
【分类号】:TP391.3
【正文快照】: 0引言随着科技发展,网络承载的信息量剧增,信息已处于爆炸的时代。而现在的搜索引擎,大部分还是按照关键词进行搜索。这在某种程度上阻碍了人们利用互联网进行有效的知识获取、共享和交换。对于问答系统,用户可以把整个问题直接交给问答系统,而不需要把自己的问题分解成关键字
【参考文献】
中国期刊全文数据库 前7条
1 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
2 谷志锋;刘勇;郭跟成;;本体映射过程中概念相似度计算方法的改进[J];计算机工程与应用;2008年08期
3 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
4 郭庆琳;李艳梅;唐琦;;基于VSM的文本相似度计算的研究[J];计算机应用研究;2008年11期
5 毛先领;李晓明;;问答系统研究综述[J];计算机科学与探索;2012年03期
6 江敏;肖诗斌;王弘蔚;施水才;;一种改进的基于《知网》的词语语义相似度计算[J];中文信息学报;2008年05期
7 韩如冰;叶得学;;基于VSM的权重改进文档相似度算法研究[J];软件;2012年10期
【共引文献】
中国期刊全文数据库 前10条
1 高炜;梁立;;基于概念匹配的本体映射算法[J];安徽大学学报(自然科学版);2010年06期
2 罗长寿;张峻峰;孙素芬;魏清凤;;基于改进VSM的农业实用技术自动问答系统研究[J];安徽农业科学;2009年28期
3 孙喜来;王欣;葛昂;郑家民;邓宏斌;;面向相似度的多维异构数据比对模型研究[J];信息安全与技术;2011年09期
4 蒋溢;丁优;熊安萍;王化晶;;一种基于知网的词汇语义相似度改进计算方法[J];重庆邮电大学学报(自然科学版);2009年04期
5 杨松;楼新远;;基于向量空间模型附加词义特征的句子相似度研究[J];成都信息工程学院学报;2012年03期
6 徐朝军;;基于主题搜索的通用教学资源共享平台设计[J];中国远程教育;2010年03期
7 杨思春;;一种改进的句子相似度计算模型[J];电子科技大学学报;2006年06期
8 田宏;李运红;;改进概念相似度的本体迁移学习[J];大连交通大学学报;2010年06期
9 丁建;范太华;;一种综合的概念语义相似度计算方法[J];电脑知识与技术;2011年03期
10 赵巾帼;徐德智;罗庆云;;汉语句子相似度计算方法比对之研究[J];福建电脑;2007年10期
中国重要会议论文全文数据库 前5条
1 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 菅小艳;郑家恒;;一种改进的句子相似度计算方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 刘宝艳;林鸿飞;杨志豪;;基于改进编辑距离和依存结构的句子相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋彦;张桂平;蔡东风;;基于N-gram的句子相似度计算技术[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
5 冯新元;魏建国;路文焕;党建武;;引入领域知识的基于《知网》词语语义相似度计算[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
中国博士学位论文全文数据库 前10条
1 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
2 刘铭;大规模文档聚类中若干关键问题的研究[D];哈尔滨工业大学;2010年
3 单建芳;面向事件的文本表示研究[D];上海大学;2012年
4 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
5 谢能付;基于语义Web技术的知识融合和同步方法研究[D];中国科学院研究生院(计算技术研究所);2006年
6 李辉;移动商务导购系统的研究[D];大连理工大学;2008年
7 刘刚;面向领域的软件需求一致性验证方法研究[D];哈尔滨工程大学;2008年
8 邱奇志;基于本体的学习对象发现机制的研究与应用[D];武汉理工大学;2009年
9 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
10 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
中国硕士学位论文全文数据库 前10条
1 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
2 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
3 徐美霞;基于web技术的网上考试系统[D];中国海洋大学;2010年
4 徐德玉;中文文档内容相似度检测方法研究[D];长春工业大学;2010年
5 王阿婷;基于概念集合的网页内容过滤方法的研究[D];北京交通大学;2010年
6 樊春雷;基于语义分析的糖尿病健康教育系统研究与实现[D];华东理工大学;2011年
7 胡青;语义目录的实现机制研究[D];武汉科技大学;2010年
8 王凤林;受限域问答式自然语言数据库查询研究[D];昆明理工大学;2010年
9 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
10 李运红;优化本体的迁移学习方法研究[D];大连交通大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 夏天,樊孝忠,刘林,骆正华;基于ALICE的汉语自然语言接口[J];北京理工大学学报;2004年10期
2 朱莉;孙广玲;;基于SVM和sigmoid函数的字符识别自适应学习算法[J];电子技术应用;2006年04期
3 郭艳华,周昌乐;一种汉语语句依存关系网协动生成方法研究[J];杭州电子工业学院学报;2000年04期
4 张承立;陈剑波;齐开悦;;基于语义网的语义相似度算法改进[J];计算机工程与应用;2006年17期
5 宋玲;马军;连莉;张志军;;文档相似度综合计算研究[J];计算机工程与应用;2006年30期
6 严莉莉;张燕平;;基于类信息的文本聚类中特征选择算法[J];计算机工程与应用;2007年12期
7 黄晓涛;李宇飞;;一种在语义网环境中的域间本体模糊映射算法[J];计算机工程与科学;2006年02期
8 吴健,吴朝晖,李莹,邓水光;基于本体论和词汇语义相似度的Web服务发现[J];计算机学报;2005年04期
9 聂朝晖;王英林;;相似本体间属性映射方法的研究[J];计算机仿真;2006年09期
10 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
中国重要会议论文全文数据库 前1条
1 车万翔;刘挺;秦兵;李生;;面向依存文法分析的搭配抽取方法研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前1条
1 王秀娟;文本检索中若干问题研究[D];北京邮电大学;2006年
中国硕士学位论文全文数据库 前1条
1 沈斌;基于分词的中文文本相似度计算研究[D];天津财经大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 丁振国;陈海霞;;一种基于知网的主观题阅卷算法[J];微电子学与计算机;2008年05期
2 谌志群;周其力;;基于综合语义的XML文档相似度计算方法[J];杭州电子科技大学学报;2009年03期
3 冉婕;孙瑜;;语义检索中的词语相似度计算研究[J];计算机技术与发展;2011年04期
4 姚全珠;孟丽;崔杜武;;基于CBR和XML的软构件检索方法[J];计算机应用;2007年07期
5 段寿建;杨朝凤;甘健侯;;基于领域本体的概念语义相似度和相关度综合量化研究[J];现代图书情报技术;2009年11期
6 陈千;向阳;魏椺;;概念匹配方法综述[J];计算机应用研究;2010年04期
7 王刚;邱玉辉;;基于本体及相似度的文本聚类研究[J];计算机应用研究;2010年07期
8 冉婕;孙瑜;漆丽娟;;基于本体的概念相似度计算及其应用[J];微型机与应用;2010年11期
9 邹李;杜小勇;何军;;B3:图间节点相似度分块计算方法[J];计算机科学与探索;2010年09期
10 刘文剑;郭宁;金天国;;制造资源本体的相似度计算模型[J];计算机集成制造系统;2010年11期
中国重要会议论文全文数据库 前10条
1 刘广艳;孙莹;黄保海;林培光;;基于本体方法的改进VSM语义检索模型[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 李卫东;杨炳儒;李龙星;曲文龙;;基于中心词位置的VSM文本分类算法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
3 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李政涛;夏树倩;王大玲;冯时;张一飞;;一种基于语义引力及密度分布的聚类算法[A];第六届全国信息检索学术会议论文集[C];2010年
6 张晓莹;张桂平;王裴岩;;领域本体构建中关系辅助判断技术研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
8 周水庚;胡江滔;胡运发;周傲英;;基于隐含语义索引的中文文本检索[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
9 伍赛;杨冬青;韩近强;张铭;王文清;冯英;;WCM:一种基于单词相关度的文档聚类新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
中国重要报纸全文数据库 前1条
1 Andi Mann 编译 刘琦;提高虚拟化系统的可管理性[N];中国计算机报;2009年
中国博士学位论文全文数据库 前7条
1 朱朝勇;基于本体的知识库分类研究[D];中国科学技术大学;2013年
2 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
3 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
4 尹华罡;基于海量时空数据的路线挖掘与检索[D];中国科学技术大学;2012年
5 胡德鹏;基于农业本体问句分析的问答系统研究与架构设计[D];中国农业科学院;2013年
6 许鹏飞;图像结构化特征表达方法研究[D];哈尔滨工业大学;2013年
7 邢星;社交网络个性化推荐方法研究[D];大连海事大学;2013年
中国硕士学位论文全文数据库 前10条
1 唐中林;基于本体的概念相似度计算方法的研究[D];武汉理工大学;2013年
2 陈欣;一种基于多属性本体的概念相似度计算方法的研究[D];东北师范大学;2010年
3 俞云飞;多特征融合的电影相似度计算方法研究[D];华东师范大学;2012年
4 朱坤红;基于VSM模型和特征选择算法的中文文本自动分类研究[D];江西师范大学;2011年
5 周帆;基于VSM的中文网页分类特征选择技术研究与实现[D];武汉理工大学;2012年
6 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
7 王安;基于VSM扩展算法和经典聚类算法的Web挖掘研究[D];首都经济贸易大学;2013年
8 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
9 罗义兵;领域文本相似度计算方法研究[D];山东科技大学;2010年
10 王茹;交通术语与标准规范的符合性检测技术研究[D];长安大学;2011年
,本文编号:679582
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/679582.html