基因测序是否准确,这篇文章从原理讲清楚了

本文转载自动脉网。

作者简介:何苗,生物学博士。珠诺云医疗科技(重庆)有限公司联合创始人,中国医学科学院(北京协和医学院)输血研究所研究员、硕士生导师,协和青年教师联盟理事。

基因是一段携带有遗传信息的DNA序列,通过转录和翻译,指导蛋白质的合成来表达个体所携带的遗传信息从而控制生物的性状表达。

▲中心法则(Thecentraldogma):是指遗传信息从DNA转录(Transcription)成RNA,再从RNA翻译(Translation)成蛋白质,即完成遗传信息的转录和翻译的过程。(图片引用自KhanAcademy)

基因检测则是通过血液、体液或细胞对DNA进行检测的技术,通过特定设备对被检测者细胞中的DNA分子信息作检测,分析它所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法。基因检测是融合了分子生物学、检验医学和生物信息学多个学科的一种专业的检测。

如何证明基因检测的准确性,业界似乎没有找到相应的简单易懂的说明。在此结合笔者的临床实践,试着与大家分享一下,读者可能是对基因检测比较关心的一般用户或者专业人士,我们期待同行读后的进一步探讨交流,以期共同推动基因检测行业的发展。

1、所谓“检测的准确性”

当提出“检验结果准吗?”这样的问题时,普遍都关心两个方面:第一方面是检测结果数据的准确性;第二方面是依据检测结果对人体健康状况(如是否患病)进行判定的准确性。前者是计量学关心的问题,后者是临床应用问题,临床实验室结果的临床应用是最终目的。

一般来说,大众理解的“检测的准确性”是指当我们拿到一份检验报告单时,特别是检验结果出现异常时,首先考虑的检验结果是否准确。在临床实践中,多为检测指标是否在正常范围内(如红细胞数量),或检测指标的阴阳性(如乙型肝炎病毒的抗原抗体检测)。这样的结果是直接可读,并在大量的既往工作中取得了临床验证的指征。因此,这样的结论可以说,绝大多数情况下符合临床表现。

但这样的评价标准无法沿用至基因组变异与疾病相关领域,这是一个新兴的领域,是人类对未知事物探索迈出的第一步,是在黑暗中摸索石头,并踩着过河的一个漫长过程。在这个过河的过程中,我们有已经摸得很清楚的石头,也有摸得不那么清楚的石头,还有摸错了的石头,甚至有些地方还不知道有没有石头。所以要定义我们基于二代测序的罕见遗传病分析是否“检测准确”,就不能一概而论,而需要一些详细的梳理。

那就必须从测序原理、疾病数据库和生物信息分析发展与技术进步几个方向进行阐述。

2、测序原理及测序的准确性

DNA测序技术,即测定DNA碱基排列顺序的技术。人类基因组由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)四种脱氧核糖核酸以不同排列组成。测定其排列顺序,即可进一步研究或改造目的片段。根据出现时间的先后顺序,以及测序方案的不同,目前测序技术大致可分为一代测序(Sanger测序),二代测序(Illumina、Thermofisher、华大基因等)和三代测序(OxfordNanoporeTechnology、PacBio等)。

▲历代测序仪发展,一代测序仪明确是ABI(现ThermoFisher)的Sanger测序;二代测序仪起源于Roche,现包括illumina、ThermoFisher(IonTorrent)、华大基因等品牌;三代测序目前主要是PacBio和ONT。但国内最近已有2家测序公司(齐碳科技、今是科技)研发出了三代纳米孔测序仪。

尽管我们用一代、二代、三代来比较容易的区分这些测序技术,但是总的来说,这些测序技术在业内都可以细分,比如Illumina的我们称为基于簇生成原理的高通量测序,而ONT的我们则称为纳米孔测序技术。其实,这三代技术没有哪一种技术要优于其他,也没有哪一种技术在目前能将其他技术取代,而是根据具体的检测需要在最佳的应用场景得到使用,这就是目前测序领域的现状。下面简单介绍一下几个类型的测序技术及优劣势。

一代测序:Sanger法测序的原理就是利用一种DNA聚合酶来延伸结合在待定序列模板上的引物,直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,终止点由反应中相应的双脱氧而定,可通过高分辨率变性凝胶电泳分离大小不同的片段从而了解到DNA的排列顺序。经多年发展,一代测序已相当完善,是目前所有基因检测的国际金标准。在临床上,所有的DNA多态性验证几乎都是用一代测序完成。二代测序与三代测序也多是用一代测序来进行验证。年以来,虽然出现了很多新一代测序仪产品,但仍由一代测序发挥其精准优势用于临床检测和验证。

▲Sanger双脱氧链终止法是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得可见DNA碱基序列的一种方法。

▲一代测序结果图,横轴是电泳时间,纵轴是荧光强度,横轴也是碱基的先后次序。峰越高、越尖,与别的峰交错越少,则这个碱基判读准确性越好。结果肉眼可见,直观而准确。

二代测序:第二代DNA测序技术又称高通量测序技术(High-throughputsequencing,HTS),以低成本、较高的准确度,一次可对几百、几千个样本的几十万至几百万条DNA分子同时进行快速测序分析。这一时期的代表技术有Roche公司的(已退市)、Illumina公司的Solexa(已升级到Novaseq,市场份额第一)和ABI公司的SOLID(由ThermoFisher公司收购,已升级到IonTorrentS5),由于该时期的测序技术十分前沿,因而市场主要被这三家公司所垄断。其测序技术复杂,生成测序文件数据量巨大,后续生物信息处理难度高,因此近5年才逐步进入临床,且多用于肿瘤精准用药的部分。

以illumina为例,我们简单介绍一下其测序流程。

①将目的DNA分子打断成-bp的片段,随机连接到固相基质上,经过Bst聚合酶延伸和甲酸胺变性的桥PCR循环,生成大量的DNA簇(DNAcluster),每个DNA簇中约有超过0个相同序列的DNA片段。

②之后的反应与Sanger法类似,加入用4种不同荧光标记并结合了可逆终止剂的dNTP。固相基质上每个孔有八道独立检测的位点,所以一次可以并行八个独立文库,可容纳数百万的模版克隆,可把多个样品混合在一起检测,每个固相基质上一次可读取10亿个碱基。

③DNA簇与单链扩增产物的通用序列杂交,由于终止剂的作用,DNA聚合酶每次循环只延伸一个dNTP。每次延伸所产生的光信号被标准的微阵列光学检测系统分析测序,下一次循环中把终止剂和荧光标记基团裂解掉,然后继续延伸dNTP,实现了边合成边测序技术。

④其主要的缺点是由于光信号衰减和移相的原因使得序列读长较短,可以进行每个DNA测序片段的阅读长度较短,目前主流且成本最低的就是做双端测序bp(PE)。我们测全外显子组的策略也是PE。

▲二代测序原理,通过簇生成,CCD捕获结合到模板的dNTP发的荧光,确定其DNA序列。

二代测序完成后,由于数据量巨大,复杂和多样,因此,结果是肉眼不可见的,需要专业的算法、流程将原始数据处理为可用的数据。可比喻为,测序只是去菜场买菜,算法则是把菜做成大餐的过程。这个过程需要超级计算机,建立好的优秀算法以及精通生物信息学分析的人员。

▲二代测序分析流程中,需要将原始测序数据进行质控后生成一系列的中间文件(左图),通过繁琐的生物信息学流程(中图),最后拼接成我们想要的基因。目前全流程多用Python和Perl语言在服务器上实现(右图)。

二代测序由于其原理的一些问题,导致必须同一个位点测多次,才能保证数据的可靠性。一般用于临床的数据,需要同一位点测序后出现次以上。我们将这样的方案叫做测序深度(X)。二代测序的优势是巨大的,其数据量巨大,可短时间高效率对人类基因组测序,并发现大量未知位点。单个位点成本降低,是个性化医疗和精准用药的基础。

最后,还有一种类似测序的工具,叫做基因芯片。基因芯片的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法。目前由国内外几家大厂家所垄断。其优点是信息量较大,比一代测序的识别位点极大提升,可批量化生产并有完全标准流水线工作。但其缺点也很明显,成本仍较高,无技术门槛,只检测已选择好的位点,更新位点的时间和经费成本较高。比如illunima公司的ASA芯片,就是在一块芯片上集成了66万个人类基因组位点,检测信息量大约30m左右。

1年,通过一代测序,耗资37亿美元,耗时13年,获得了人类基因组草图。到了7年,用二代测序完成第一个完整的人类基因组序列图谱只花费了万美元,耗时3个月。到了年,人类基因组测序只需要不到1万元人民币即可完成测序工作,时间只需要3天。近年来,测序技术突飞猛进,随着测序单价的不断降低,我们必将见证人人都有“基因身份证”的那一天。

3、基因突变与疾病的关系

中国民间流传千百年的俗语非常生动形象地描述了基因的主要特征——遗传和变异。

“龙生龙,凤生凤”是遗传;“龙生九子,各有不同”是因为基因的变异。遗传与变异,是生物界不断地普遍发生的现象,也是物种形成和生物进化的基础。人类基因的遗传与变异,与环境共同作用,决定了人的生、长、老、病、死。现代医学研究证明,所有的疾病,除了外伤、中毒或营养不良以外,几乎都跟基因有关。

按照基因变异在疾病中发挥作用的程度可将疾病分为至少四类:

1)完全由基因决定的:比如单基因罕见遗传病中的先天性成骨不全症、血友病、杜氏肌营养不良等。

2)基本上由基因决定,但需要环境中的一定诱因:比如单基因遗传病中的苯丙酮尿症,早期人们只知道它与遗传有关,现在知道只有吃了含苯丙氨酸量多的食物才诱发此病;

3)遗传因素和环境因素都有作用,这一类疾病里又分为主要由遗传因素决定的:如遗传性肿瘤,精神发育障碍等;以及遗传和环境同样重要的,如高血压、冠心病、糖尿病等各种慢病等;

4)完全取决于环境因素:如烧烫伤、感染等。

根据国内外指南和专家共识,目前疾病与基因的关系又可简单分为5个等级。包括:

致病:一般指基因突变与疾病发病有这因果关系,都是在多个人群重复出了结果,并有可能开展了细胞动物实验得出的结果。

例如:因为ATP7B基因突变,所以导致ATP酶功能减弱或消失,引致血清铜蓝蛋白(Ceruloplasmin,CP)合成减少以及胆道排铜障碍,蓄积在体内的铜离子在肝、脑、肾、角膜等处沉积,引起肝豆状核变性(Hepatolenticulardegeneration,HLD)。该病由Wilson在年首先描述,故又称为威尔逊病(WilsonDisease,WD)。是一种常染色体隐性遗传的铜代谢障碍性疾病,以铜代谢障碍引起的肝硬化、基底节损害为主的脑变性疾病为特点,对肝豆状核变性发病机制的认识已深入到分子水平。HLD的世界范围发病率为1/~1/000,致病基因携带者约为1/90。本病在中国较多见。HLD好发于青少年,男性比女性稍多,如不恰当治疗将会致残甚至死亡。

含有致病突变的人相对于一般人有非常显著的高发病可能,纯合的致病突变很有可能直接导致疾病发生,杂合的致病突变有50%的几率遗传给后代,并根据遗传致病情况(显性遗传或隐性遗传)对后代造成不同的疾病表型。具有该类突变的患者应该进行相关疾病的特定检测,并根据临床结果制定后续治疗方案;

危险因素:一般指基因突变显著性的呈现在发病人群,在不/未发病人群里,这类基因突变显著降低。这里的显著,均值的统计学差异。然而这样的突变,目前仅通过了不同表型的人群分析出来了统计学差异,并没有发现病因学、病理学的差异以及信号通路上必然存在的变化,也没有相应的体内体外实验来验证其因果关系。

例如:β-微精浆蛋白(Microseminoprotein-beta,MSMB)是前列腺上皮细胞分泌的三大蛋白之一。Eelesetal.(8)对名在60岁前诊断为前列腺癌的病人和名有低PSA浓度(lessthan0.5ng/ml)的正常人进行了基因组水平的研究,共分析了,个SNPs。最终发现MSMB基因的此位点突变与前列腺癌显著相关(8.7x10-29)。致病突变T,会影响众多与转录相关因子的结合。Thomasetal.(8)对名前列腺癌病人和名正常人也进行了基因组水平的研究,共分析了个SNP,也发现MSMB基因的此位点突变与前列腺癌显著相关(7.31x10-13)。Changetal.(9)对2,名病人和名健康人进行了研究,发现MSMB基因的此位点与前列腺癌的相关程度最高。Louetal.(9)对欧洲的名病人和名正常人的染色体10进行了研究,也发现了MSMB基因的此位点与前列腺癌显著相关程度最高(p=8.8x10-18)。

危险因素级别的突变代表该基因位点与所检测的疾病相关性比较高,有该基因的突变,是发病的危险因素,与疾病的高发相关,具有该类突变的患者应该



转载请注明地址:http://www.jiyingyang.com/jlbf/7168.html
  • 上一篇文章:
  • 下一篇文章: 没有了
  • 热点文章

    • 没有热点文章

    推荐文章

    • 没有推荐文章