基于下一代测序技术构建42个常染色体短串联重复序列分型体系

发布时间：2020-05-06 09:09

【摘要】：目的:在法医实践检案中,常常遇到失踪人口身份认定、复杂亲缘关系鉴定等疑难案件,对这些案件的鉴定,通常需要检测更多的遗传标记,获得更多的遗传信息。短串联重复序列(short tandem repeats,STR)仍然是目前法医DNA分析主流的遗传标记,应用毛细管电泳技术构建复合分型体系,目前可以做到一个体系中复合20多个STR位点,但仍不能满足实际需求。下一代测序技术(next generation sequencing,NGS)不受荧光标记限制可以在一个体系中检测更多遗传标记,而且可以同时获得各基因座的长度和序列信息,增加了STR的有效等位基因数目,提高了信息含量,是解决上述疑难案件的更好选择。因此,本研究拟选取目前法医DNA检验过程中常用的42个常染色体STR和Amelogenin基因构建NGS-STR分型体系,基于Illumina MiSeq FGx~(TM)平台进行测序,建立测序数据的分析模块和方法;对分型体系进行法医学应用评估,为NGS-STR分型技术的发展提供新数据,为需要联合应用多个试剂盒的STR位点达到检测目的疑难案件提供新的检测方案。方法:1.NGS-STR分型体系构建:从本课题组生物样本库中选取58个健康无关个人全基因组DNA样本,选取2800 Control DNA作为阳性对照标准品,使用Qubit~(TM) dsDNA HS Assay Kit进行DNA定量,利用Nano-Q~(TM)微型分光光度计检测DNA纯度。选取法医学常用的42个常染色体STR和Amelogenin基因(D1S1656、CSF1PO、D10S1248、D10S1435、D11S2368、D12S391、D13S317、D13S325、D14S608、D15S659、D16S539、D17S1290、D18S51、D18S535、D19S253、D19S433、D20S470、D21S11、D21S1270、D22-GATA198B05、D2S1338、D2S441、D3S1358、D3S1744、D3S3045、D4S2366、D5S2500、D5S818、D6S1043、D6S477、D7S1517、D7S3048、D7S820、D8S1132、D8S1179、D9S925、FGA、Penta D、Penta E、TH01、TPOX、vWA、Amelogenin),采用下一代测序的分子条形码及单端特异性引物延伸技术合成NGS-STR分型体系分型试剂。按照QIAseq Targeted DNA Custom Panel说明构建文库,DNA起始模板量为20 ng,纯度为1.8~2.0。应用MiSeq上机测序试剂盒对文库进行均一化、变性和稀释。使用Illumina Experiment Manager(IEM)进行上机测序参数设置,运用MiSeq FGx~(TM)平台的RUO(Research Use Only Run)模式进行测序。2.测序数据分析:运用Linux系统与hg19版本参考基因组进行序列比对,选取STR两端长度3~10bp不等的特异序列进行匹配和筛选目标区域序列信息,且每个STR基因座的特异性匹配筛选标准较为个性化。通过对国际法医遗传学会的命名指南推荐命名进一步调整,使其与CE分型结果间具有兼容性。3.NGS-STR分型体系法医学应用评估:比较同一文库在不同参数(双端测序(Pair-End,PE)PE150和PE300)下的进行测序参数;对2800 Control DNA中42个STR和Amelogenin基因的核心序列进行测序验证,评估分型结果的准确性;比对58个样本的NGS-STR和CE-STR分型结果,评价其一致性;对2800 Control DNA重复3次构建文库进行重复性研究;将2800 Control DNA以不同起始DNA模板量(10 ng、5 ng、2.5 ng、1.25ng和0.625 ng)构建文库并上机测序评估灵敏度;将2个样本以不同混合比(1:1、1:2、1:4和1:9)构建文库并上机测序进行混合样本研究。结果:1.实验过程质量评估对所构建的文库进行片段质检结果表明,文库既没有小片段接头也没有大片拖尾峰,与预期峰图一致;摩尔浓度质检结果表明,空白对照孔CT值29、标准曲线斜率在-3.1~-3.5、复孔间的标准差0.4、扩增效率在90%~110%,质检合格。本实验过程中的3次测序的主要质控指标碱基质量分数(Quality Score)Q30、簇密度(cluster density)和簇通过率(Clusters Passing Filter)平均值分别为85.47%、1007.33 K/mm~2和91.5%,均满足Illumina官方认定可用结果。同一文库采用双端(Pair-End,PE)150测序和PE300两种参数测序,结果表明,两次测序分型结果完全一致。同时,在其他条件不变的情况下,随着双端测序读长PE增加,测序可用数据相对增加。2.NGS-STR分型体系的实验室评估在5%的分析阈值下,能过滤掉绝大多数的背景噪音并进行正确分型,所有样本平均总测序深度为147207×;基因座的平均DoC为2688×;在基因座序列构成比中,%Allele、%Stutte、%Noise平均值分别为97.01%、2.64%、0.35%;所有基因座ACR平均值为0.741。3.准确性和一致性该分型体系对2800 Control DNA的所有基因座的核心序列信息检测结果与ForenSeq~TMM DNA Signature Prep Kit测序和Sanger测序结果一致。对2800 Control DNA测序结果研究发现,9个常染色体STR基因座的NGS-STR分型和CE-STR分型的命名存在不兼容现象,根据序列比对结果对这些基因座进行了核心序列的重复次数修正,提出了新的命名策略。按照新的命名策略进行命名,本实验58个样本的2494个基因座进行NGS-STR分型和CE-STR分型比对,2487个(99.72%)基因座的NGS和CE分型结果完全一致。同时,在23个基因座中观察到新增同等位基因191个。4.重复性和灵敏度研究3次重复性实验等位基因分型一致,并且%Allele和ACR经统计学检验均无显著性差异,表明分型体系重复性良好。在5%的分析阈值下,起始DNA模板量降至2.5 ng时,可以对各基因座进行准确分型。当起始模板量为1.25 ng时,样本的测序深度、%Allele出现了锐减现象,%Stutter和%Noise呈现反向增加的趋势。对不同起始模板量ACR分析,当起始模板量在2.5 ng时,ACR变异系数相对较小(20.8%);当起始模板量降至0.625 ng时,变异系数增高到41.1%,各基因座间的离散程度增大。5.混合物分析在5%的分析阈值下,混合比为1:1和1:2的样本没有发生等位基因的丢失;混合比为1:4和1:9的样本中均出现了低组分等位基因丢失现象。并且随着样本混合比的增大,呈现出等位基因检出数目减少、丢失数目增多、检出率降低的趋势。6.群体遗传学分析对58个无关个体NGS-STR分型数据进行群体遗传学参数分析,所有基因座的等位基因频率均符合Hardy-Weinberg平衡,各基因座均呈连锁平衡状态。对长度多态性和序列多态性所获得的杂合度Het、个人识别概率DP和多态性信息含量PIC进行比较,表明通过NGS检测STR的多态性较CE结果有明显的提高。结论:本研究构建了42个常染色体STR和Amelogenin基因的NGS-STR分型体系、测序数据分析方法及命名策略,具有较好的准确性、灵敏度和重复性,对混合样本分型具有较好的应用价值,为NGS-STR分型技术的发展提供新数据,为需要联合应用多个试剂盒的STR位点达到检测目的疑难案件提供新的检测方案。
【图文】：

文库构建流程

基于下一代测序技术构建42个常染色体短串联重复序列分型体系

LabchipGxTouch24文库质检结果
【学位授予单位】：河北医科大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：D919.4

【参考文献】