侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

基因測(cè)序是否準(zhǔn)確,這篇文章從原理講清楚了!

image.png

Sanger雙脫氧鏈終止法是根據(jù)核苷酸在某一固定的點(diǎn)開(kāi)始,隨機(jī)在某一個(gè)特定的堿基處終止,并且在每個(gè)堿基后面進(jìn)行熒光標(biāo)記,產(chǎn)生以A、T、C、G結(jié)束的四組不同長(zhǎng)度的一系列核苷酸,然后在尿素變性的PAGE膠上電泳進(jìn)行檢測(cè),從而獲得可見(jiàn)DNA堿基序列的一種方法。

image.png

一代測(cè)序結(jié)果圖,橫軸是電泳時(shí)間,縱軸是熒光強(qiáng)度,橫軸也是堿基的先后次序。峰越高、越尖,與別的峰交錯(cuò)越少,則這個(gè)堿基判讀準(zhǔn)確性越好。結(jié)果肉眼可見(jiàn),直觀而準(zhǔn)確。

二代測(cè)序:第二代DNA測(cè)序技術(shù)又稱(chēng)高通量測(cè)序技術(shù)(High-throughput sequencing, HTS),以低成本、較高的準(zhǔn)確度,一次可對(duì)幾百、幾千個(gè)樣本的幾十萬(wàn)至幾百萬(wàn)條DNA分子同時(shí)進(jìn)行快速測(cè)序分析。這一時(shí)期的代表技術(shù)有 Roche公司的454(已退市)、Illumina公司的Solexa(已升級(jí)到Novaseq,市場(chǎng)份額第一)和ABI公司的SOLID(由ThermoFisher公司收購(gòu),已升級(jí)到Ion Torrent S5),由于該時(shí)期的測(cè)序技術(shù)十分前沿,因而市場(chǎng)主要被這三家公司所壟斷。其測(cè)序技術(shù)復(fù)雜,生成測(cè)序文件數(shù)據(jù)量巨大,后續(xù)生物信息處理難度高,因此近5年才逐步進(jìn)入臨床,且多用于腫瘤精準(zhǔn)用藥的部分。

以illumina為例,我們簡(jiǎn)單介紹一下其測(cè)序流程。

①將目的DNA分子打斷成100-200 bp的片段,隨機(jī)連接到固相基質(zhì)上,經(jīng)過(guò)Bst聚合酶延伸和甲酸胺變性的橋PCR循環(huán),生成大量的DNA簇(DNA cluster),每個(gè)DNA 簇中約有超過(guò)1000個(gè)相同序列的DNA片段。

②之后的反應(yīng)與Sanger法類(lèi)似,加入用4種不同熒光標(biāo)記并結(jié)合了可逆終止劑的dNTP。固相基質(zhì)上每個(gè)孔有八道獨(dú)立檢測(cè)的位點(diǎn),所以一次可以并行八個(gè)獨(dú)立文庫(kù),可容納數(shù)百萬(wàn)的模版克隆,可把多個(gè)樣品混合在一起檢測(cè),每個(gè)固相基質(zhì)上一次可讀取10億個(gè)堿基。

③DNA簇與單鏈擴(kuò)增產(chǎn)物的通用序列雜交,由于終止劑的作用,DNA聚合酶每次循環(huán)只延伸一個(gè)dNTP。每次延伸所產(chǎn)生的光信號(hào)被標(biāo)準(zhǔn)的微陣列光學(xué)檢測(cè)系統(tǒng)分析測(cè)序,下一次循環(huán)中把終止劑和熒光標(biāo)記基團(tuán)裂解掉,然后繼續(xù)延伸dNTP,實(shí)現(xiàn)了邊合成邊測(cè)序技術(shù)。

④其主要的缺點(diǎn)是由于光信號(hào)衰減和移相的原因使得序列讀長(zhǎng)較短,可以進(jìn)行每個(gè)DNA測(cè)序片段的閱讀長(zhǎng)度較短,目前主流且成本最低的就是做雙端測(cè)序150bp(PE150)。我們測(cè)全外顯子組的策略也是PE150。

image.png

image.png

二代測(cè)序原理,通過(guò)簇生成,CCD捕獲結(jié)合到模板的dNTP發(fā)的熒光,確定其DNA序列。

二代測(cè)序完成后,由于數(shù)據(jù)量巨大,復(fù)雜和多樣,因此,結(jié)果是肉眼不可見(jiàn)的,需要專(zhuān)業(yè)的算法、流程將原始數(shù)據(jù)處理為可用的數(shù)據(jù)。可比喻為,測(cè)序只是去菜場(chǎng)買(mǎi)菜,算法則是把菜做成大餐的過(guò)程。這個(gè)過(guò)程需要超級(jí)計(jì)算機(jī),建立好的優(yōu)秀算法以及精通生物信息學(xué)分析的人員。

image.png

二代測(cè)序分析流程中,需要將原始測(cè)序數(shù)據(jù)進(jìn)行質(zhì)控后生成一系列的中間文件(左圖),通過(guò)繁瑣的生物信息學(xué)流程(中圖),最后拼接成我們想要的基因。目前全流程多用Python和Perl語(yǔ)言在服務(wù)器上實(shí)現(xiàn)(右圖)。

二代測(cè)序由于其原理的一些問(wèn)題,導(dǎo)致必須同一個(gè)位點(diǎn)測(cè)多次,才能保證數(shù)據(jù)的可靠性。一般用于臨床的數(shù)據(jù),需要同一位點(diǎn)測(cè)序后出現(xiàn)200次以上。我們將這樣的方案叫做測(cè)序深度(>200 X)。二代測(cè)序的優(yōu)勢(shì)是巨大的,其數(shù)據(jù)量巨大,可短時(shí)間高效率對(duì)人類(lèi)基因組測(cè)序,并發(fā)現(xiàn)大量未知位點(diǎn)。單個(gè)位點(diǎn)成本降低,是個(gè)性化醫(yī)療和精準(zhǔn)用藥的基礎(chǔ)。

最后,還有一種類(lèi)似測(cè)序的工具,叫做基因芯片;蛐酒脑褪80年代中期提出的;蛐酒臏y(cè)序原理是雜交測(cè)序方法。目前由國(guó)內(nèi)外幾家大廠家所壟斷。其優(yōu)點(diǎn)是信息量較大,比一代測(cè)序的識(shí)別位點(diǎn)極大提升,可批量化生產(chǎn)并有完全標(biāo)準(zhǔn)流水線(xiàn)工作。但其缺點(diǎn)也很明顯,成本仍較高,無(wú)技術(shù)門(mén)檻,只檢測(cè)已選擇好的位點(diǎn),更新位點(diǎn)的時(shí)間和經(jīng)費(fèi)成本較高。比如illunima公司的ASA芯片,就是在一塊芯片上集成了66萬(wàn)個(gè)人類(lèi)基因組位點(diǎn),檢測(cè)信息量大約30m左右。

2001年,通過(guò)一代測(cè)序,耗資37億美元,耗時(shí)13年,獲得了人類(lèi)基因組草圖。到了2007年,用二代測(cè)序完成第一個(gè)完整的人類(lèi)基因組序列圖譜只花費(fèi)了150萬(wàn)美元,耗時(shí)3個(gè)月。到了2020年,人類(lèi)基因組測(cè)序只需要不到1萬(wàn)元人民幣即可完成測(cè)序工作,時(shí)間只需要3天。近年來(lái),測(cè)序技術(shù)突飛猛進(jìn),隨著測(cè)序單價(jià)的不斷降低,我們必將見(jiàn)證人人都有“基因身份證”的那一天。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問(wèn)題的,請(qǐng)聯(lián)系我們。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)