面向乳腺癌数据的基因存储方法与拓扑数据分析
发布时间:2021-01-22 04:57
乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤,居女性恶性肿瘤的第一位,乳腺癌信息的存储和预判具有重要意义。mRNA和乳腺钼靶X线摄影成像能够对乳腺癌进行早期诊断。本文对乳腺组织数据依次做了存储、因子筛选与分类,形成一套完整的存储与分析的流程。基于乳腺癌组织和正常组织的mRNA表达水平数据和乳腺钼靶X线摄影成像,将乳腺组织信息以基因的信息存储在试管中。将数字信息转化为三进制基因编码,首尾相连地将长链基因分割为基因片段,并添加前引物、后引物和纠错位。考虑到一个信息存储试验管的“不安全性”,本文采取了分布式的存储方法。将信息存储在若干个试管中,依照同余数错位剔除信息的方法提出每个试管中的一点信息,这样只有在所有试管都存在的时候才能够恢复原始信息。添加一定的人为扰动后,通过基因池中的基因序列逐相对比可以恢复为原来的信息。进行计算机模拟,发现错误率非常低,鲁棒性高且安全性强。利用乳腺组织的开源数据集——来自不同乳腺组织的mRNA表达数据进行拓扑数据分析,用线性判别方法进行降维。构建1133维mRNA数据的单纯复形及其链复形,计算其边界算子寻找链复形的所有边缘,计算化简后的边界算子的秩的差得到了 Bet...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2-2?首尾相连”的基因存储樓型??在这个模型中f每一条链与前面一条链有75%的重合,当前面一条链确定后,??后面一条链S然而然可以确定,并且有很高的概率不会与其他链重合
??.?哈第窮:£业大_学■娜位论文??综合上述几点要求,模型示意图如下图2-4所示,其中,黑色区域为删除的基??CDN^?!???!?j?i?i?;?i?|?;?i?|??_;r笔編‘?J?|??丨雜??V?V.V.4V?乂?J.寺.??删除部分位点?1??a)存储在第一个试验管中的核糖核苷酸链??CDNA长筚????1?|?|?I?|?|???DNA?片段?|J|?H??V?V?'?4V?'?V?'?V?W?Y??删除部分位点??b)存储在第一个试验管中的核糖核苷酸链??CD,_?!!!!!!?f?i?i??dna|?片?t?—f?Etijd?J?:?;?1?:??l??!v!?wV?!v!v!?w?!f!i!??删除部分位点?I??c)存储在第一个试验管中的核糖核苷酸链??CDN今长苹?|?|?i?::?:??'■…丨丨「rr??!?W?!V?!?Vs?w?!v?!?J??删除部分位点?I??d)存储在第一个试验管中的核糖核苷酸链??图2-4分布式菌.因存储模塑??存储的时候,一份信息会存入到四个实验管中,每个实验管按上述模型存储内??容。为了区分这四个存储模型,在模型中添加两条特殊的链。在第_个模型中,重??复“GTCA”得到长度为100的链,该链翻译过来就是“534,?437,?291,437,?”,??-9-??
?轉灣隹歡???若使用该模型,1克DNA不到指尖上^滴露珠大小,却能够存储175?TB的??数据。相爾于3500张50?GB容量的蓝光光盘,或58个3?TB的硬盘(其质最大约??有38?kg)。该模型将为海聾信息提供安全高效的存储环境。??2.3.3编码效果分析??首先建立了一个0重复纠错模型”,将某份70?KB的文本的数据进行转换,变??成_因数据A、T、C、G;重复若干次;模报存储池中的扰动一即以低于p?=?0.03??的概率让每个基因发生突变;进行重复纠错,恢复数据,检查“重复纠错模型1勺纠??错能力,得到下图2-5:??|:)??。°??图2-5重复次数、扰动概率与错误率的三._关系图??从上面的三维图中,我们可以看到重复8次的效果是完美的。制作上图的横??截面,并观察8次针对不同千扰概率的纠错效果,如图2-6所示《可以观察到当扰??动概率小于0.04的时候,存储错误率小于1(T5,这个时候存储效率是接近无损的。??0.04??1?1?1?1?1?1?1?1?1?1??0.035?-??0.03?-?/?A??0.025?-?/?-\??I??4^?〇.〇2?-??0.015?-?/?-j??0.01?-?j??0.005?-?,??〇0?0.02?0.04?0.06?0.08?0.1?0.12?0.14?0.16?0.18?0.2??扰动概率??图2-6重复8次的存储效率图??-11-??
【参考文献】:
期刊论文
[1]DNA计算机中基于顺序存储方式的二叉树数据结构[J]. 朱雅莉,李肯立. 计算机应用. 2008(06)
[2]数据存储新方向:DNA分子存储技术[J]. 崔光照,刘玉琳,张勋才. 计算机工程与应用. 2006(26)
硕士论文
[1]面向乳腺癌数据的单纯复形建模方法及拓扑不变量分析[D]. 陈剑楠.哈尔滨工业大学 2018
[2]机器学习的拓扑结构研究[D]. 谢子雨.复旦大学 2013
本文编号:2992597
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图2-2?首尾相连”的基因存储樓型??在这个模型中f每一条链与前面一条链有75%的重合,当前面一条链确定后,??后面一条链S然而然可以确定,并且有很高的概率不会与其他链重合
??.?哈第窮:£业大_学■娜位论文??综合上述几点要求,模型示意图如下图2-4所示,其中,黑色区域为删除的基??CDN^?!???!?j?i?i?;?i?|?;?i?|??_;r笔編‘?J?|??丨雜??V?V.V.4V?乂?J.寺.??删除部分位点?1??a)存储在第一个试验管中的核糖核苷酸链??CDNA长筚????1?|?|?I?|?|???DNA?片段?|J|?H??V?V?'?4V?'?V?'?V?W?Y??删除部分位点??b)存储在第一个试验管中的核糖核苷酸链??CD,_?!!!!!!?f?i?i??dna|?片?t?—f?Etijd?J?:?;?1?:??l??!v!?wV?!v!v!?w?!f!i!??删除部分位点?I??c)存储在第一个试验管中的核糖核苷酸链??CDN今长苹?|?|?i?::?:??'■…丨丨「rr??!?W?!V?!?Vs?w?!v?!?J??删除部分位点?I??d)存储在第一个试验管中的核糖核苷酸链??图2-4分布式菌.因存储模塑??存储的时候,一份信息会存入到四个实验管中,每个实验管按上述模型存储内??容。为了区分这四个存储模型,在模型中添加两条特殊的链。在第_个模型中,重??复“GTCA”得到长度为100的链,该链翻译过来就是“534,?437,?291,437,?”,??-9-??
?轉灣隹歡???若使用该模型,1克DNA不到指尖上^滴露珠大小,却能够存储175?TB的??数据。相爾于3500张50?GB容量的蓝光光盘,或58个3?TB的硬盘(其质最大约??有38?kg)。该模型将为海聾信息提供安全高效的存储环境。??2.3.3编码效果分析??首先建立了一个0重复纠错模型”,将某份70?KB的文本的数据进行转换,变??成_因数据A、T、C、G;重复若干次;模报存储池中的扰动一即以低于p?=?0.03??的概率让每个基因发生突变;进行重复纠错,恢复数据,检查“重复纠错模型1勺纠??错能力,得到下图2-5:??|:)??。°??图2-5重复次数、扰动概率与错误率的三._关系图??从上面的三维图中,我们可以看到重复8次的效果是完美的。制作上图的横??截面,并观察8次针对不同千扰概率的纠错效果,如图2-6所示《可以观察到当扰??动概率小于0.04的时候,存储错误率小于1(T5,这个时候存储效率是接近无损的。??0.04??1?1?1?1?1?1?1?1?1?1??0.035?-??0.03?-?/?A??0.025?-?/?-\??I??4^?〇.〇2?-??0.015?-?/?-j??0.01?-?j??0.005?-?,??〇0?0.02?0.04?0.06?0.08?0.1?0.12?0.14?0.16?0.18?0.2??扰动概率??图2-6重复8次的存储效率图??-11-??
【参考文献】:
期刊论文
[1]DNA计算机中基于顺序存储方式的二叉树数据结构[J]. 朱雅莉,李肯立. 计算机应用. 2008(06)
[2]数据存储新方向:DNA分子存储技术[J]. 崔光照,刘玉琳,张勋才. 计算机工程与应用. 2006(26)
硕士论文
[1]面向乳腺癌数据的单纯复形建模方法及拓扑不变量分析[D]. 陈剑楠.哈尔滨工业大学 2018
[2]机器学习的拓扑结构研究[D]. 谢子雨.复旦大学 2013
本文编号:2992597
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/2992597.html
最近更新
教材专著