当前位置:主页 > 科技论文 > 软件论文 >

基于主题和特征的文本相似度算法研究

发布时间:2017-10-01 13:33

  本文关键词:基于主题和特征的文本相似度算法研究


  更多相关文章: 数据挖掘 文本相似度 主题 特征


【摘要】:本文提出了结合主题和各主题下关键特征的文本相似度算法,目的在于更准确的挖掘被描述对象的近邻对象集。本文首先介绍卡方统检验特征统计法,并利用改进的卡方检验,计算训练集中已知主题的文本的特征;而后介绍了最小编辑距离算法、余弦相似度算法和杰卡德相似系数,在论证了主题对文本相似度的重要性后,又针对难提取主题的文本加以改进,最终提出了基于主题和特征的文本相似度算法;然后对各个算法在测试集上的相似度计算结果进行分析,证明本文提出的算法在速度和精确度上明显优于其他算法;最后将该算法应用于股票的概念股题材标注上,分析结果并提出改进空间和不足之处。
【作者单位】: 北京邮电大学网络技术研究院;
【关键词】数据挖掘 文本相似度 主题 特征
【分类号】:TP391.1
【正文快照】: 文本相似度的计算已经深入到互联网发展的各个领域;如:在QA系统中,快而准的判断问题之间的相似度,决定了QA系统回答的响应速度和准确度;在各大门户网站中,文本相似度的挖掘,是用户个性化推荐系统和编辑系统的关键工作。在文本分类的问题上,由于有本数量过多、描述篇幅过大或内

【相似文献】

中国期刊全文数据库 前10条

1 邓冠男;;聚类分析中的相似度研究[J];东北电力大学学报;2013年Z1期

2 张常有,王锋君,孙林夫;基于灰色系统理论的工程相似度分析[J];计算机应用;2000年S1期

3 辛颖梅;钱海峰;倪魏巍;徐冬梅;孙志挥;;关于专利类别间相似度量化方法的研究[J];科技创新导报;2009年15期

4 蒋占四;陈立平;罗年猛;;最近邻实例检索相似度分析[J];计算机集成制造系统;2007年06期

5 刘嘉;祁奇;陈振宇;惠成峰;;ESSK:一种计算点击流相似度的新方法[J];计算机科学;2012年06期

6 邹李;杜小勇;何军;;B3:图间节点相似度分块计算方法[J];计算机科学与探索;2010年09期

7 姚新磊;庞建民;岳峰;余勇;;基于API依赖关系的代码相似度分析[J];计算机工程;2013年01期

8 张常有,郭增强,牛江川;工程智能CAD中的类比转换模型研究[J];石家庄铁道学院学报;2003年03期

9 吴海华;李绍滋;林达真;柯逍;曹冬林;;基于新型聚类算法Increase K-Means的Blog相似度分析[J];厦门大学学报(自然科学版);2009年02期

10 ;[J];;年期

中国硕士学位论文全文数据库 前5条

1 徐川;论文相似度分析系统设计[D];山东大学;2012年

2 于海英;程序代码相似度识别的研究[D];内蒙古师范大学;2006年

3 曾鹏;语句相似度算法研究及其在题库开发中的应用[D];电子科技大学;2013年

4 杨健梅;基于相似度分析的数字多媒体被动取证研究[D];福建师范大学;2015年

5 程欣欣;心电信号QRS波检测与分类研究[D];华东理工大学;2011年



本文编号:953760

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/953760.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2eb6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com