基于共现词频的序列相似性研究
发布时间:2022-09-29 16:24
随着第二代测序技术的发展,产生了大量的生物序列数据,这些丰富的数据资源为科研人员的研究提供了便捷,也提高了人们的工作效率。在这些数据资源给人们提供便利的同时,也对人们如何快速有效地处理这些大数据提出了挑战。若对每条数据都进行信息提取或物种注释,既耗时工作量又很大。本工作将共现词频作为研究序列相似性的主要指标,并从以下三个方面展开研究:首先应用一种归一化的共现词频方法——Jaccard进行序列相似性计算,然后将共现词频技术与图模型结合,计算序列权重,最后应用序列权重进行序列聚类。主要工作结果如下:(1)基于改进的Jaccard系数文档相似度计算方法。针对传统的文档相似度计算方法中存在的相似度计算不精等问题,提出一种基于改进的Jaccard系数确定文档相似度的方法。通过文本预处理,按照一定的滑动窗口大小,对文本进行分割,将文本用L字元素(k-mers)表示,并记录其在每个文档中的出现频度。通过对两文本间存在的共现k-mers词频做归一化处理、计算其在文本中所占比重及对两文本相似度所做的贡献,得到两文本基于改进的Jaccard系数文档相似度。随后利用搜狗实验室提供的语料,对本工作提出的相似度...
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
绪论
第一节 研究背景和意义
第二节 国内外研究现状
0.2.1 文本相似度研究
0.2.2 生物序列聚类研究
第三节 论文的主要内容研究
第四节 论文的组织结构
第一章 相关工作
第一节 常用相似度计算方法
1.1.1 共现词频与Jaccard相似度
1.1.2 余弦相似度
1.1.3 编辑距离
1.1.4 D-type方法
第二节 基于图的权重计算方法
1.2.1 PageRank算法
1.2.2 TextRank算法
第三节 常用生物序列聚类方法
1.3.1 Afcluster
1.3.2 QCluster
1.3.3 CD-HIT
1.3.4 USEARCH
第四节 本章小结
第二章 基于改进的Jaccard系数文档相似度计算方法
第一节 改进的Jaccard系数文档相似度算法
2.1.1 文本分割
2.1.2 权重计算
2.1.3 相似度计算
第二节 算法示例
第三节 实验介绍
2.3.1 实验数据
2.3.2 评估指标
2.3.3 实验结果
第四节 本章小结
第三章 SeqRank:基于图模型的序列权重计算模型
第一节 SeqRank算法
3.1.1 序列分割
3.1.2 图模型构造
3.1.3 权重计算
第二节 实验介绍
3.2.1 实验数据
3.2.2 实验结果
3.2.3 SeqRank不足之处
第三节 本章小结
第四章 基于SeqRank的聚类算法
第一节 SeqRank改进思路
第二节 基于SeqRank的聚类算法
4.2.1 基于MSR计算序列重要性
4.2.2 选取候选序列
4.2.3 寻找序列中心
4.2.4 序列聚类
第三节 实验介绍
4.3.1 实验数据
4.3.2 评估指标
4.3.3 实验结果
第四节 本章小结
第五章 总结与展望
第一节 研究工作总结
第二节 未来工作展望
参考文献
攻读学位期间承担的科研任务与主要成果
科研任务
主要成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于余弦相似度和实例加权改进的贝叶斯算法[J]. 王行甫,付欢欢,王琳. 计算机系统应用. 2016(08)
[2]一种改进的文本相似度算法在政务系统中的应用[J]. 贾惠娟. 信息技术与信息化. 2016(07)
[3]基于巴氏系数和Jaccard系数的协同过滤算法[J]. 杨家慧,刘方爱. 计算机应用. 2016(07)
[4]基于向量空间模型的中文文本相似度的研究[J]. 薛苏琴,牛永洁. 电子设计工程. 2016(10)
[5]一种基于Jaccard相似度的社团发现方法[J]. 孙宇. 电子技术与软件工程. 2016(03)
[6]基于文本计算和链接分析的主题导航优化——以ERS网站为例[J]. 许鑫,苏晓兰. 情报学报. 2015 (09)
[7]一种基于熵的文本相似性计算方法[J]. 李圣文,凌微,龚君芳,周长征. 计算机应用研究. 2016(03)
[8]基于Hadoop平台的文本相似度检测系统的研究[J]. 王小林,肖慧,邰伟鹏. 计算机技术与发展. 2015(08)
[9]基于改进的TF-IDF方法的文本相似度算法研究[J]. 周丽杰,于伟海,郭成. 泰山学院学报. 2015(03)
[10]基于余弦相似度的人脸识别系统的实现[J]. 刘一玮,杨韬,刘瑾,于振泽,孙嘉琨. 电子技术与软件工程. 2015(09)
硕士论文
[1]金华火腿品质特征的GC-MS指纹图谱研究[D]. 吕晓雷.浙江工商大学 2013
[2]基于多示例学习的中文文本表示及分类研究[D]. 何维.大连理工大学 2009
本文编号:3682919
【文章页数】:83 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
绪论
第一节 研究背景和意义
第二节 国内外研究现状
0.2.1 文本相似度研究
0.2.2 生物序列聚类研究
第三节 论文的主要内容研究
第四节 论文的组织结构
第一章 相关工作
第一节 常用相似度计算方法
1.1.1 共现词频与Jaccard相似度
1.1.2 余弦相似度
1.1.3 编辑距离
1.1.4 D-type方法
第二节 基于图的权重计算方法
1.2.1 PageRank算法
1.2.2 TextRank算法
第三节 常用生物序列聚类方法
1.3.1 Afcluster
1.3.2 QCluster
1.3.3 CD-HIT
1.3.4 USEARCH
第四节 本章小结
第二章 基于改进的Jaccard系数文档相似度计算方法
第一节 改进的Jaccard系数文档相似度算法
2.1.1 文本分割
2.1.2 权重计算
2.1.3 相似度计算
第二节 算法示例
第三节 实验介绍
2.3.1 实验数据
2.3.2 评估指标
2.3.3 实验结果
第四节 本章小结
第三章 SeqRank:基于图模型的序列权重计算模型
第一节 SeqRank算法
3.1.1 序列分割
3.1.2 图模型构造
3.1.3 权重计算
第二节 实验介绍
3.2.1 实验数据
3.2.2 实验结果
3.2.3 SeqRank不足之处
第三节 本章小结
第四章 基于SeqRank的聚类算法
第一节 SeqRank改进思路
第二节 基于SeqRank的聚类算法
4.2.1 基于MSR计算序列重要性
4.2.2 选取候选序列
4.2.3 寻找序列中心
4.2.4 序列聚类
第三节 实验介绍
4.3.1 实验数据
4.3.2 评估指标
4.3.3 实验结果
第四节 本章小结
第五章 总结与展望
第一节 研究工作总结
第二节 未来工作展望
参考文献
攻读学位期间承担的科研任务与主要成果
科研任务
主要成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于余弦相似度和实例加权改进的贝叶斯算法[J]. 王行甫,付欢欢,王琳. 计算机系统应用. 2016(08)
[2]一种改进的文本相似度算法在政务系统中的应用[J]. 贾惠娟. 信息技术与信息化. 2016(07)
[3]基于巴氏系数和Jaccard系数的协同过滤算法[J]. 杨家慧,刘方爱. 计算机应用. 2016(07)
[4]基于向量空间模型的中文文本相似度的研究[J]. 薛苏琴,牛永洁. 电子设计工程. 2016(10)
[5]一种基于Jaccard相似度的社团发现方法[J]. 孙宇. 电子技术与软件工程. 2016(03)
[6]基于文本计算和链接分析的主题导航优化——以ERS网站为例[J]. 许鑫,苏晓兰. 情报学报. 2015 (09)
[7]一种基于熵的文本相似性计算方法[J]. 李圣文,凌微,龚君芳,周长征. 计算机应用研究. 2016(03)
[8]基于Hadoop平台的文本相似度检测系统的研究[J]. 王小林,肖慧,邰伟鹏. 计算机技术与发展. 2015(08)
[9]基于改进的TF-IDF方法的文本相似度算法研究[J]. 周丽杰,于伟海,郭成. 泰山学院学报. 2015(03)
[10]基于余弦相似度的人脸识别系统的实现[J]. 刘一玮,杨韬,刘瑾,于振泽,孙嘉琨. 电子技术与软件工程. 2015(09)
硕士论文
[1]金华火腿品质特征的GC-MS指纹图谱研究[D]. 吕晓雷.浙江工商大学 2013
[2]基于多示例学习的中文文本表示及分类研究[D]. 何维.大连理工大学 2009
本文编号:3682919
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3682919.html
最近更新
教材专著