当前位置:主页 > 科技论文 > 基因论文 >

基于蒙特卡洛理论的基因序列分析与仿真

发布时间:2018-03-13 15:06

  本文选题:系统发育 切入点:序列分析 出处:《广东工业大学》2016年硕士论文 论文类型:学位论文


【摘要】:生物大数据背景下的数据规模对传统的生命科学分析和实验方法提出了严峻的挑战,各生物数据项之间复杂的关系也是传统的研究模型难以描述和处理的。为了解决这个问题而兴起的生物信息学正是着重借助计算机的强大性能,通过针对问题构建各种模型并参考其他领域经典的算法,为生命科学的研究和发展提供帮助和支持。为了推动生命科学的发展,对传统方法的继承和改进十分必要的。考虑到传统方法没有在计算中表征序列的具体功能,在比较大的规模的数据集中传统方法的分析结果与实际观测结果的误差较大,因此需要在计算中考虑序列具体功能含义。而生物数据分析本身是非确定性的问题,使用确定性分析的计算方法求解在理论和实际中都存在不同程度的误差,考虑使用非确定性分析的模拟归纳方法有效的提高结果的准确度,并降低冗余计算消耗的时间。针对这两个问题,本文主要进行了两项工作。首先是借鉴了数据挖掘技术在文本分析和自然语言处理领域的分析方法,通过对数据集的预处理建立向量库以分析保守序列的结构模式,从而确定序列之间置信度概率;下一步工作则是针对这个概率,使用蒙特卡洛方法进行发育分析模拟,并在大量的模拟实验中确定最优解。针对传统的系统发育分析方法中没有考虑到具体序列功能和含义的问题,本文在进行系统发育分析的工作中引入了携带具体序列功能的保守片段的研究方法,不但可以在分析中计算具体序列的含义,还能将长度在百万至千万位的序列分析降低到长度仅在数十至上百的模块分析,在降低计算时间和空间需求的同时,提高分析结果的置信度和可靠性。实验结果表明,本文提出的方法的时间复杂度和空间复杂度均优于传统的方法,而且相比于传统方法本文增加了对具体序列功能和含义的考虑和分析,得到的结果不但符合数据的校验结果,更可以提供具体序列功能性的解释,在置信度和可靠性上都超过传统的方法。使用蒙特卡洛模拟分析更符合自然进化的模式,得到的结果更完整、全面,将会对系统发育和生命科学研究和建设提供更可靠的分析工具,以弥补传统的分析方法的不足之处。
[Abstract]:The data scale under the background of biological big data poses a severe challenge to the traditional life science analysis and experimental methods. The complex relationships between biological data items are also difficult to describe and deal with in traditional research models. Bioinformatics, which has arisen in order to solve this problem, focuses on the powerful performance of computers. In order to promote the development of life science, we build various models and refer to classical algorithms in other fields to help and support the research and development of life science. It is necessary to inherit and improve the traditional method. Considering that the traditional method does not represent the specific function of the sequence in the calculation, the error between the analysis result of the traditional method and the actual observation result is large in the larger data set. Therefore, it is necessary to consider the specific functional meaning of sequence in calculation, and biological data analysis itself is a non-deterministic problem, and the calculation method of deterministic analysis has different degrees of errors in both theory and practice. Considering the use of non-deterministic simulation inductive methods to improve the accuracy of the results and reduce the time of redundant computation. In this paper, two main works are carried out. Firstly, we use the analysis methods of data mining technology in the field of text analysis and natural language processing for reference, and build a vector library to analyze the structural patterns of conservative sequences by preprocessing the data sets. In order to determine the probability of confidence between sequences, the next step is to use the Monte Carlo method to simulate the development of the sequence. The optimal solution is determined in a large number of simulation experiments. The traditional phylogenetic analysis methods do not take into account the function and meaning of specific sequences. In the work of phylogenetic analysis, this paper introduces the research method of conservative fragments with specific sequence function, which can not only calculate the meaning of specific sequence in the analysis. It can also reduce the length of sequence analysis from millions to tens of millions of bits to only a few tens to hundreds of modules in length, while reducing the need for computing time and space, while improving the confidence and reliability of the analysis results. The experimental results show that, The time complexity and space complexity of the proposed method are better than that of the traditional method, and compared with the traditional method, the function and meaning of the specific sequence are considered and analyzed in this paper. The results not only accord with the results of data verification. It can also provide a functional explanation of specific sequences, outperforming traditional methods in terms of confidence and reliability. Using Monte Carlo simulation analysis is more consistent with the natural evolutionary model, and the results are more complete and comprehensive. It will provide more reliable analytical tools for phylogenetic and life science research and construction to make up for the shortcomings of traditional analytical methods.
【学位授予单位】:广东工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q811.4;TP311.13

【相似文献】

相关期刊论文 前10条

1 祝玉学,戚国庆;边坡可靠性分析的蒙特卡洛-有限元法[J];水文地质工程地质;1992年03期

2 董艳;翟丽丽;何莉敏;;基于已实现波动的蒙特卡洛美式期权定价模型[J];阴山学刊(自然科学);2012年01期

3 黄五群,陈天];二维随机三角点阵上依辛模型的蒙特卡洛重整化群研究[J];科学通报;1989年07期

4 黄五群;陈天];钟朝武;李志兵;;二维三角点阵的蒙特卡洛重整化群研究[J];高能物理与核物理;1987年01期

5 黄五群;陈天];沈琴婉;钟朝武;;随机三角点阵中依辛模型的蒙特卡洛重整化群研究[J];高能物理与核物理;1987年04期

6 何其超,徐廷伟;计算电子光学系统收集效率的蒙特卡洛—数值积分法[J];电子学通讯;1981年04期

7 沈佐锐,管致和,J.Deltour,P.Dagnelic;菜蚜种群抽样理论的蒙特卡洛试验研究[J];昆虫学报;1986年04期

8 李志兵;钟朝武;陈天(山仑);黄五群;;φ~4模型的蒙特卡洛重整化群研究[J];高能物理与核物理;1988年01期

9 H.L.Anderson;郑希特;;MANIAC的科学应用[J];世界科学;1988年08期

10 张文明;工作站环境中电路的蒙特卡洛分析[J];计算机应用研究;1997年02期

相关会议论文 前3条

1 程磊;房永智;王刚;;蒙特卡洛计算方法与作战毁伤模拟决策分析[A];中国系统工程学会决策科学专业委员会第六届学术年会论文集[C];2005年

2 周永宏;郑大伟;廖新浩;;相关分析显著水平的蒙特卡洛模拟检验[A];中国地球物理学会年刊2002——中国地球物理学会第十八届年会论文集[C];2002年

3 康晓岩;陈永义;;一种改进的蒙特卡洛选择算子[A];中国系统工程学会模糊数学与模糊系统委员会第十一届年会论文选集[C];2002年

相关重要报纸文章 前6条

1 记者 王庆芳;蒙特卡洛三剑客聚首杂技节[N];石家庄日报;2005年

2 梁丽娟;1993:难忘蒙特卡洛[N];人民日报海外版;2008年

3 宋志坚;天价之中的特权成本[N];福建日报;2007年

4 阳映红 编译;充满挑战的再保业(下)[N];中国保险报;2014年

5 阳映红 编译;充满挑战的再保业(上)[N];中国保险报;2014年

6 李雨萌;李娜的税收哲学[N];大连日报;2014年

相关硕士学位论文 前9条

1 于永波;基于蒙特卡洛树搜索的计算机围棋博弈研究[D];大连海事大学;2015年

2 祁建娟;CDO信用风险度量的蒙特卡洛算法优化及应用[D];上海交通大学;2015年

3 梁金龙;铀部件质量丰度检测数据采集仿真系统研究[D];西南科技大学;2015年

4 王洋;基于蒙特卡洛理论的基因序列分析与仿真[D];广东工业大学;2016年

5 邓斌;基于蒙特卡洛算法的锚泊容量研究[D];大连海事大学;2012年

6 徐麟;基于蒙特卡洛分析的港口项目财务风险研究[D];大连海事大学;2008年

7 谢东;基于蒙特卡洛技术的中国移动无线网优项目时间管理研究[D];安徽大学;2012年

8 夏勇;基于蒙特卡洛的动态无线传感器网络节点定位算法研究[D];辽宁科技大学;2014年

9 肖峰;GPU高性能运算在计算机围棋博弈系统中的应用研究及实验[D];北京邮电大学;2011年



本文编号:1606911

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1606911.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a1c4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com