基于主题和特征的文本相似度算法研究
本文关键词:基于主题和特征的文本相似度算法研究
【摘要】:本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果并提出改进空间和不足之处。
【作者单位】: 北京邮电大学网络技术研究院;
【关键词】: 数据挖掘 文本相似度 主题 特征
【分类号】:TP391.1
【正文快照】: 文本相似度的计算已经深入到互联网发展的各个领域;如:在QA系统中,快而准的判断问题之间的相似度,决定了QA系统回答的响应速度和准确度;在各大门户网站中,文本相似度的挖掘,是用户个性化推荐系统和编辑系统的关键工作。在文本分类的问题上,由于有本数量过多、描述篇幅过大或内
【相似文献】
中国期刊全文数据库 前10条
1 邓冠男;;聚类分析中的相似度研究[J];东北电力大学学报;2013年Z1期
2 张常有,王锋君,孙林夫;基于灰色系统理论的工程相似度分析[J];计算机应用;2000年S1期
3 辛颖梅;钱海峰;倪魏巍;徐冬梅;孙志挥;;关于专利类别间相似度量化方法的研究[J];科技创新导报;2009年15期
4 蒋占四;陈立平;罗年猛;;最近邻实例检索相似度分析[J];计算机集成制造系统;2007年06期
5 刘嘉;祁奇;陈振宇;惠成峰;;ESSK:一种计算点击流相似度的新方法[J];计算机科学;2012年06期
6 邹李;杜小勇;何军;;B3:图间节点相似度分块计算方法[J];计算机科学与探索;2010年09期
7 姚新磊;庞建民;岳峰;余勇;;基于API依赖关系的代码相似度分析[J];计算机工程;2013年01期
8 张常有,郭增强,牛江川;工程智能CAD中的类比转换模型研究[J];石家庄铁道学院学报;2003年03期
9 吴海华;李绍滋;林达真;柯逍;曹冬林;;基于新型聚类算法Increase K-Means的Blog相似度分析[J];厦门大学学报(自然科学版);2009年02期
10 ;[J];;年期
中国硕士学位论文全文数据库 前5条
1 徐川;论文相似度分析系统设计[D];山东大学;2012年
2 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年
3 曾鹏;语句相似度算法研究及其在题库开发中的应用[D];电子科技大学;2013年
4 杨健梅;基于相似度分析的数字多媒体被动取证研究[D];福建师范大学;2015年
5 程欣欣;心电信号QRS波检测与分类研究[D];华东理工大学;2011年
,本文编号:953760
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/953760.html