目前一代測序儀廠家主要有Illumina 、羅氏、ABI等三家。Illumina公司于2007年花費(fèi)6億美金的巨資收購了Solexa, 新一代dna測序儀Genome Analyzer早由Solexa公司研發(fā),利用其核心技術(shù)“DNA簇”和“可逆性末端終結(jié)(reversible terminator)”,實(shí)現(xiàn)自動(dòng)化樣本制備及基因組數(shù)百萬個(gè)堿基大規(guī)模平行測序。。Genome Analyzer作為新一代測序技術(shù)平臺,具有高性,高通量,高靈敏度,和低運(yùn)行成本等突出優(yōu)勢,可以同時(shí)完成傳統(tǒng)基因組學(xué)研究(測序和注釋)以及功能基因組學(xué) (基因表達(dá)及調(diào)控,基因功能,蛋白/核酸相互作用)研究。
Genome Analyzer自以來,已經(jīng)為千人基因組計(jì)劃立下了赫赫戰(zhàn)功。今年早期,荷蘭科學(xué)家利用它繪出女性的基因組圖譜。而就在前兩周,《Nature》雜志上一連出現(xiàn)三個(gè)人類基因組圖譜:炎黃一號-*個(gè)亞洲人圖譜;*個(gè)癌癥病人圖譜;*個(gè)非洲人圖譜。它們?nèi)且蕾?/span>Genome Analyzer完成的。嘩,一下就來仨!這和*個(gè)人類基因組圖譜的13年形成了多么鮮明的對照。
根據(jù)去年底的數(shù)據(jù),Genome Analyzer已售出約200臺,估計(jì)是*廣的。前不久,華大基因再添置了12臺,準(zhǔn)備放在香港和深圳的實(shí)驗(yàn)室,至此華大基因已經(jīng)有29臺Genome Analyzer。而的麻省理工學(xué)院和哈佛大學(xué)Broad研究院擁有47臺Illumina測序儀。眾多實(shí)驗(yàn)室之所以選擇Illumina,看中的無疑是Genome Analyzer的高性價(jià)比。
上個(gè)月,Illumina將Genome Analyzer II升級到Genome Analyzer IIx,距年底實(shí)現(xiàn)單次運(yùn)行獲得95 GB數(shù)據(jù)的宏偉目標(biāo)又近了一步。Genome Analyzer IIx有兩個(gè)核心特征:其一是更大的試劑冷卻器,支持超過100個(gè)測序循環(huán),進(jìn)一步提升了系統(tǒng)的易用性和自動(dòng)化;其二是的流動(dòng)池支架,讓每輪運(yùn)行所得的高質(zhì)量數(shù)據(jù)增加20%。依靠系統(tǒng)軟件和試劑的改進(jìn),Genome Analyzer IIx現(xiàn)在能夠支持100 bp以上的配對末端讀長,并在每次運(yùn)行中產(chǎn)生超過20 GB的高質(zhì)量數(shù)據(jù)。
Genome Analyzer技術(shù)的基本原理:
1. 文庫制備
將基因組DNA打成幾百個(gè)堿基(或更短)的小片段,在片段的兩個(gè)末端加上接頭(adapter)。
2. 產(chǎn)生DNA簇
利用的芯片,其表面連接有一層單鏈引物,DNA片段變成單鏈后通過與芯片表面的引物堿基互補(bǔ)被一端“固定”在芯片上。另外一端(5’或3’)隨機(jī)和附近的另外一個(gè)引物互補(bǔ),也被“固定”住,形成“橋 (bridge) “。反復(fù)30輪擴(kuò)增,每個(gè)單分子得到了1000倍擴(kuò)增,成為單克隆DNA簇。DNA簇產(chǎn)生之后,擴(kuò)增子被線性化,測序引物隨后雜交在目標(biāo)區(qū)域一側(cè)的通用序列上。
3. 測序
Genome Analyzer系統(tǒng)應(yīng)用了邊合成邊測序(Sequencing By Synthesis)的原理。加入改造過的DNA聚合酶和帶有4種熒光標(biāo)記的dNTP。 這些核苷酸是“可逆終止子”,因?yàn)?/span>3’羥基末端帶有可化學(xué)切割的部分,它只容許每個(gè)循環(huán)摻入單個(gè)堿基。此時(shí),用激光掃描反應(yīng)板表面,讀取每條模板序列*輪反應(yīng)所聚合上去的核苷酸種類。之后,將這些基團(tuán)化學(xué)切割,恢復(fù)3'端粘性,繼續(xù)聚合第二個(gè)核苷酸。如此繼續(xù)下去,直到每條模板序列都被聚合為雙鏈。這樣,統(tǒng)計(jì)每輪收集到的熒光信號結(jié)果,就可以得知每個(gè)模板DNA片段的序列。目前的配對末端讀長可達(dá)到2×50 bp,更長的讀長也能實(shí)現(xiàn),但錯(cuò)誤率會(huì)增高。讀長會(huì)受到多個(gè)引起信號衰減的因素所影響,如熒光標(biāo)記的不切割。
4. 數(shù)據(jù)分析
自動(dòng)讀取堿基,數(shù)據(jù)被轉(zhuǎn)移到自動(dòng)分析通道進(jìn)行二次分析。
Genome Analyzer系統(tǒng)之所以如此,關(guān)鍵在于其技術(shù)上的優(yōu)勢。
1. 可擴(kuò)展的超高通量
Genome Analyzer系統(tǒng)目前每次運(yùn)行后可獲得超過20 GB的高品質(zhì)過濾數(shù)據(jù)。這個(gè)技術(shù)的可擴(kuò)展性了更高的數(shù)據(jù)密度和輸出,能用更少的經(jīng)費(fèi)完成更復(fù)雜的項(xiàng)目。到今年底,通量還有望上升到95 GB,相當(dāng)于人類基因組的30倍覆蓋度。
2. 需要樣品量少
Genome Analyzer系統(tǒng)需要的樣品量低至100ng,能應(yīng)用在很多樣品有限的實(shí)驗(yàn)(比如免疫沉淀、顯微切割等)中。這也是很多研究人員所考慮的因素。
3. 簡單、快速、自動(dòng)化
Genome Analyzer系統(tǒng)提供了簡單和簡潔的工作流程。即使是小的實(shí)驗(yàn)室也能像大型基因組中心一樣進(jìn)行大規(guī)模的實(shí)驗(yàn)。制備樣品文庫可以在幾小時(shí)內(nèi)完成,一個(gè)星期內(nèi)就能得到高度的數(shù)據(jù)。Cluster Station可以說是Genome Analyzer的核心。由獨(dú)立軟件控制的自動(dòng)生成DNA簇的過程可以在5小時(shí)之內(nèi)(30分鐘手工操作)完成。這個(gè)自動(dòng)化的流程不需要進(jìn)行Emulsion PCR,減少了手工操作誤差和污染可能性,也不需要機(jī)器人操作或潔凈室。快速的實(shí)驗(yàn)流程使Genome Analyzer的能力增至大,而自動(dòng)化步移降低了項(xiàng)目的時(shí)間和費(fèi)用。
4. 新穎的測序化學(xué)技術(shù)
Genome Analyzer通過合成測序來支持大規(guī)模并行測序。利用新穎的可逆熒光標(biāo)記終止子,可以在DNA鏈延伸的過程中檢測單個(gè)堿基摻入。由于四個(gè)可逆終止子dNTP在每個(gè)測序循環(huán)都存在,自然的競爭減少了摻入的誤差。
5. 單個(gè)或配對末端支持
Genome Analyzer系統(tǒng)支持單個(gè)片段或配對末端文庫。文庫構(gòu)建過程簡單,減少了樣品分離和制備的時(shí)間。制備基因組DNA的單個(gè)片段或配對末端文庫需要6個(gè)小時(shí),只有3個(gè)小時(shí)需要手工操作。2×50個(gè)堿基或更長的讀長增加了比對基因組的能力,并拓展了在其他方面的應(yīng)用。
然而,精明的用戶更看重的是性價(jià)比,這也是他們選擇Illumina的重要原因。Illumina的售價(jià)約為45萬美元,低于454 GS FLX的50萬和SOLiD系統(tǒng)的59萬(以上皆為美國的售價(jià))。此外,運(yùn)行成本也是一個(gè)關(guān)鍵因素。美國鳳凰城翻譯基因組學(xué)研究院(TGen)的主管David Duggan曾表示,當(dāng)年購買新一代測序儀時(shí),每次運(yùn)行的費(fèi)用就成為他下決定的主要因素。他終選擇了Illumina Genome Analyzer,因?yàn)槊枯喌倪\(yùn)行費(fèi)用為3000-4000美元(2007年的數(shù)據(jù)),較為合理,而其他測序儀可能更高。當(dāng)然,他也綜合考慮了通量、運(yùn)行時(shí)間和樣品量。
弗吉尼亞聯(lián)邦大學(xué)的高原(音譯)博士認(rèn)為:“Genome Analyzer的操作費(fèi)用、易用性和可擴(kuò)展性讓我實(shí)現(xiàn)了大規(guī)模基因組實(shí)驗(yàn)?,F(xiàn)在,我的小型實(shí)驗(yàn)室正在進(jìn)行過去只能在大型基因組中心才能完成的實(shí)驗(yàn)。低樣品需求、簡單的流程、高質(zhì)量的數(shù)據(jù)以及應(yīng)用靈活性讓Illumina Genome Analyzer從其他高通量測序技術(shù)中脫穎而出。”
羅氏454 測序儀
454公司可謂新一代測序技術(shù)的奠基人。2005年底,454公司推出了的基于焦磷酸測序法的超高通量基因組測序系統(tǒng)——Genome Sequencer 20 System,被《Nature》雜志以里程碑事件報(bào)道,開創(chuàng)了邊合成邊測序(sequencing-by-synthesis)的先河。之后,454公司被羅氏診斷公司以1.55億美元收購。一年后,他們又推出了性能更優(yōu)的第二代基因組測序系統(tǒng)—— Genome Sequencer FLX System (GS FLX)。去年10月,的GS FLX Titanium系列試劑和軟件的補(bǔ)充,讓GS FLX的通量一下子提高了5倍,性、讀長也進(jìn)一步提升。
想當(dāng)年,GS 20的出現(xiàn),揭開了測序歷嶄新的一頁。Jonathan Rothberg博士就是大規(guī)模并行測序的,同時(shí)也是454的創(chuàng)始人。上世紀(jì)90年代,很多學(xué)者也都想到了大規(guī)模并行測序,他們試圖將Sanger測序移到芯片上,但都以失敗告終,因?yàn)檫@項(xiàng)技術(shù)沒有可擴(kuò)展性。1999年,Rothberg的兒子出世,他放了兩個(gè)星期的陪產(chǎn)假。小家伙出生后被送入嬰兒特護(hù)病房,Rothberg非常擔(dān)心,甚至想獲取兒子的基因組信息。這段擔(dān)驚受怕的經(jīng)歷給了他靈感,他突然意識到焦磷酸測序(pyrosequencing)不僅簡單,而且具有可擴(kuò)展性。兩個(gè)星期之后,Rothberg就開始設(shè)計(jì)芯片和流動(dòng)室,讓測序在更小的反應(yīng)室中進(jìn)行,并同時(shí)進(jìn)行幾百萬個(gè)反應(yīng)。
硬件的設(shè)計(jì)和制造也只是成功的一半,在樣品制備上還有同樣漫長的路要走。Rothberg摒棄了傳統(tǒng)的細(xì)菌克隆與挑選,將DNA打斷成隨機(jī)片段,并尋找一種方法來克隆每個(gè)片段。受到其他學(xué)者乳液實(shí)驗(yàn)的啟發(fā),他也想將DNA放入油包水的乳液中,這樣就省去了反應(yīng)管。一個(gè)好漢三個(gè)幫。在Joel Bader等人的幫助下,Rothberg驗(yàn)證了這些想法的可行性,并利用了炸藥中的表面活性劑來維持乳液的熱穩(wěn)定性。就這樣,乳液PCR終于誕生了。
之后,454生命科學(xué)公司用新一代測序儀對DNA雙螺旋結(jié)構(gòu)的James Watson進(jìn)行了基因組測序。*份個(gè)人基因組圖譜的繪制只用了兩年時(shí)間,花費(fèi)不到100萬美元。雖然現(xiàn)在看來這并不算什么,但就當(dāng)時(shí)而言,它相對于人類基因組計(jì)劃已是質(zhì)的飛躍。
GS FLX系統(tǒng)的工作流程
GS FLX系統(tǒng)的流程概括起來,就是“一個(gè)片段 = 一個(gè)磁珠 = 一條讀長(One fragment = One bead = One read)”。
1)樣品輸入并片段化:GS FLX系統(tǒng)支持各種不同來源的樣品,包括基因組DNA、PCR產(chǎn)物、BAC、cDNA、小分子RNA等等。大的樣品例如基因組DNA或者BAC等被打斷成300-800 bp的片段;對于小分子的非編碼RNA或者PCR擴(kuò)增產(chǎn)物,這一步則不需要。短的PCR產(chǎn)物則可以直接跳到步驟3)。
2)文庫制備:借助一系列標(biāo)準(zhǔn)的分子生物學(xué)技術(shù),將A和B接頭(3’和5’端具有特異性)連接到DNA片段上。接頭也將用于后續(xù)的純化,擴(kuò)增和測序步驟。具有A、B接頭的單鏈DNA片段組成了樣品文庫。
3)一個(gè)DNA片段=一個(gè)磁珠:單鏈DNA文庫被固定在特別設(shè)計(jì)的DNA捕獲磁珠上。每一個(gè)磁珠攜帶了一個(gè)*的單鏈DNA片段。磁珠結(jié)合的文庫被擴(kuò)增試劑乳化,形成油包水的混合物,這樣就形成了只包含一個(gè)磁珠和一個(gè)*片段的微反應(yīng)器。
4)乳液PCR擴(kuò)增:每個(gè)*的片段在自己的微反應(yīng)器里進(jìn)行獨(dú)立的擴(kuò)增,而沒有其他的競爭性或者污染性序列的影響。整個(gè)片段文庫的擴(kuò)增平行進(jìn)行。對于每一個(gè)片段而言,擴(kuò)增后產(chǎn)生了幾百萬個(gè)相同的拷貝。隨后,乳液混合物被打破,擴(kuò)增的片段仍然結(jié)合在磁珠上。
5)一個(gè)磁珠=一條讀長:攜帶DNA的捕獲磁珠隨后放入PTP板中進(jìn)行后繼的測序。PTP孔的直徑(29um)只能容納一個(gè)磁珠(20um)。然后將PTP板放置在GS FLX中,測序開始。放置在四個(gè)單獨(dú)的試劑瓶里的四種堿基,依照T、A、C、G的順序依次循環(huán)進(jìn)入PTP板,每次只進(jìn)入一個(gè)堿基。如果發(fā)生堿基配對,就會(huì)釋放一個(gè)焦磷酸。這個(gè)焦磷酸在ATP硫酸化酶和螢光素酶的作用下,經(jīng)過一個(gè)合成反應(yīng)和一個(gè)化學(xué)發(fā)光反應(yīng),終將螢光素氧化成氧化螢光素,同時(shí)釋放出光信號。此反應(yīng)釋放出的光信號實(shí)時(shí)被儀器配置的高靈敏度CCD捕獲到。有一個(gè)堿基和測序模板進(jìn)行配對,就會(huì)捕獲到一分子的光信號;由此一一對應(yīng),就可以、快速地確定待測模板的堿基序列。這也就是大名鼎鼎的焦磷酸測序。
6)數(shù)據(jù)分析:GS FLX系統(tǒng)在10小時(shí)的運(yùn)行當(dāng)中可獲得100多萬個(gè)讀長,讀取超過4-6億個(gè)堿基信息。GS FLX 系統(tǒng)提供兩種不同的生物信息學(xué)工具對測序數(shù)據(jù)進(jìn)行分析,適用于不同的應(yīng)用:達(dá)400 MB的從頭拼接和任何大小基因組的重測序。
GS FLX系統(tǒng)的率在99%以上。其主要限制來自同聚物,也就是相同堿基的連續(xù)摻入,如AAA或GGG。由于沒有終止元件來阻止單個(gè)循環(huán)的連續(xù)摻入,同聚物的長度就需要從信號強(qiáng)度中推斷出來。這個(gè)過程就可能產(chǎn)生誤差。因此,454測序平臺的主要錯(cuò)誤類型是插入-缺失,而不是替換。
新升級讓性能提升
去年底發(fā)布的Titanium系列試劑,是對現(xiàn)有GS FLX平臺的重要升級。升級內(nèi)容包含耗材、試劑和軟件。你無需對儀器的硬件做任何昂貴的升級,只改進(jìn)試劑和軟件,就能立刻實(shí)現(xiàn)性能提升。升級之后,每輪測序能產(chǎn)生100萬個(gè)讀長片段,高質(zhì)量(Q20)的讀長增加至400 bp。第400個(gè)堿基的率是99%,之前的更高。通量也提高了5倍,目前每輪運(yùn)行能獲得4-6億個(gè)堿基對,所需時(shí)間為10小時(shí)。
PTP平板的創(chuàng)新重設(shè)計(jì) 重新設(shè)計(jì)之后,PTP平板上孔的密度更高,利用更小的DNA捕獲磁珠進(jìn)行金屬覆蓋,改善了信號質(zhì)量,因此讀長的數(shù)量和長度都明顯改善,同時(shí)性更高。目前孔的直徑是29 um,DNA捕獲磁珠的大小是20 um。
改進(jìn)的測序試劑 改進(jìn)的GS FLX Titanium試劑顯著降低了背景噪音,因此在幾乎相同的運(yùn)行時(shí)間內(nèi),讀長更加長。升級的軟件 優(yōu)化用于超高通量測序的軟件,能輕松對更大、更復(fù)雜的基因組進(jìn)行拼接和作圖。GS FLX 2.0版 它與以前版本的輸出數(shù)據(jù)也兼容,讓片段能夠共同拼接和作圖。
廣闊的應(yīng)用天地
在新一代測序技術(shù)中,GS系統(tǒng)是多產(chǎn)的。截至2008年9月,已經(jīng)發(fā)表了250多篇高質(zhì)量的paper。其中Nature 20篇、Science 13篇、Cell 6篇、Genome Research 20篇、PNAS 24篇。光是這些數(shù)據(jù)就讓人咂舌。這些研究跨越了測序應(yīng)用的多個(gè)方面:82篇全基因組測序論文包括比較基因組學(xué)的從頭測序和重測序;54篇小分子RNA研究;37篇聚焦快速興起的宏基因組學(xué);27篇關(guān)于轉(zhuǎn)錄組圖譜分析,包括全轉(zhuǎn)錄組拼接和表達(dá)圖譜;13篇研究染色體結(jié)構(gòu)和表觀遺傳學(xué);10篇有關(guān)稀有變異檢測的超深度測序這個(gè)新領(lǐng)域;11篇研究古老RNA。其余的文章關(guān)注454測序系統(tǒng)的技術(shù)和生物信息學(xué)。多種多樣的應(yīng)用彰顯出454測序系統(tǒng)的能力,那些傳統(tǒng)意義上無法用測序來解決的問題現(xiàn)在也一并解決了。
454測序系統(tǒng)除了為多項(xiàng)研究領(lǐng)域開辟了基因組分析之路,同時(shí)也加速了探索的步伐。一般來說,研究、分析、撰寫并提交論文,經(jīng)同行評議后發(fā)表,需要一年左右的時(shí)間。而利用Genome Sequencer系統(tǒng)發(fā)表論文的速度,顯然表明454測序結(jié)果的數(shù)據(jù)質(zhì)量高,且分析簡單。超長讀長與易用的分析工具相結(jié)合,讓研究人員能更集中精力于科學(xué)研究,而不是研究測序過程中的某個(gè)技術(shù)細(xì)節(jié)。這樣研究項(xiàng)目能快速完成,接著踏上新的研究道路。
與其他新一代測序平臺相比,454平臺的突出優(yōu)勢是讀長。目前GS FLX系統(tǒng)的序列讀長已超過400 bp。雖然454平臺的測序成本比其他平臺要高很多,不過對于那些需要長讀長的應(yīng)用,如從頭拼接和宏基因組學(xué),它仍是的選擇。
去年底,美國加利福尼亞大學(xué)的研究小組利用的GS FLX Titanium系列試劑對海洋樣品的宏基因組進(jìn)行測序,發(fā)現(xiàn)了一種的藍(lán)藻物種,文章發(fā)表在11月14日的《Science》雜志上。這項(xiàng)研究是系統(tǒng)升級后發(fā)表的首篇文章。研究員Jonathan Zehr對于獲得數(shù)據(jù)及分析結(jié)果的速度非常震驚。他表示:“多年來我們一直試圖培養(yǎng)這種微生物,但都沒有成功。有了GS FLX Titanium,我們在幾天之內(nèi)就通過單次測序運(yùn)行,從環(huán)境樣品直接獲得了寶貴的基因組信息。這個(gè)系統(tǒng)超長的讀長對于我們從復(fù)雜的微生物群體中鑒定并分析這種*的細(xì)菌基因組來說非常關(guān)鍵。”
近,在454測序平臺的協(xié)助下,研究人員完成了油棕櫚的全基因組測序、拼接和注釋。油棕櫚是一種重要的經(jīng)濟(jì)作物,它的基因組很大,達(dá)17 GB。基因組的測序工作是由GS FLX Titanium系統(tǒng)完成的,拼接和分析則是由馬來西亞一家生物信息學(xué)公司完成的。值得注意的是,這是*次在沒有添加傳統(tǒng)Sanger測序數(shù)據(jù)的情況下,完成了對大且非常復(fù)雜的植物基因組進(jìn)行從頭拼接。這種快速經(jīng)濟(jì)的方法為了解多種經(jīng)濟(jì)作物的遺傳結(jié)構(gòu)打開了大門。
此外,羅氏旗下的另一家公司NimbleGen正在性地捕獲定向重測序市場。NimbleGen序列捕獲芯片與454的測序儀結(jié)合,能讓完整的人外顯組測序成為現(xiàn)實(shí),終將為研究流水線輸送技術(shù),并促進(jìn)個(gè)性化醫(yī)療的開發(fā).
ABI測序儀
過去20年,美國應(yīng)用生物系統(tǒng)公司(ABI)在測序方面一直占據(jù)著壟斷地位。自公司的共同創(chuàng)始人Leroy Hood在上世紀(jì)80年代中期設(shè)計(jì)了*臺自動(dòng)熒光測序儀之后,生命科學(xué)研究就擺脫了手工測序的繁瑣和辛勞,驕傲地邁入自動(dòng)測序的新時(shí)代。直到2005年,454推出了FLX焦磷酸測序平臺,ABI的地位開始有些動(dòng)搖。之后,ABI迅速收購了一家測序公司——Agencourt Personal Genomics,并在2007年底推出了SOLiD 新一代測序平臺。從SOLiD到如今的SOLiD 3,短短一年多時(shí)間,它已經(jīng)上演了一出精彩的“方程式賽車”。
SOLiD全稱為supported oligo ligation detetion,它的*之處在于以四色熒光標(biāo)記寡核苷酸的連續(xù)連接合成為基礎(chǔ),取代了傳統(tǒng)的聚合酶連接反應(yīng),可對單拷貝DNA片段進(jìn)行大規(guī)模擴(kuò)增和高通量并行測序。就通量而言,SOLiD 3系統(tǒng)是的,目前SOLiD 3單次運(yùn)行可產(chǎn)生50GB的序列數(shù)據(jù),相當(dāng)于17倍人類基因組覆蓋度。而其無以倫比的性、系統(tǒng)可靠性和可擴(kuò)展性更讓它從其他新一代測序平臺中脫穎而出。為什么SOLiD能輕松實(shí)現(xiàn)貌似不可能的任務(wù)?讓生物通帶你從測序原理入手,一探究竟。
SOLiD工作流程
a. 文庫制備
SOLiD系統(tǒng)能支持兩種測序模板:片段文庫(fragment library)或配對末端文庫(mate-paired library)。使用哪一種文庫取決于你的應(yīng)用及需要的信息。片段文庫就是將基因組DNA打斷,兩頭加上接頭,制成文庫。如果你想要做轉(zhuǎn)錄組測序、RNA定量、miRNA探索、重測序、3’, 5’-RACE、甲基化分析、ChIP測序等,就可以用它。如果你的應(yīng)用是全基因組測序、SNP分析、結(jié)構(gòu)重排/拷貝數(shù),則需要用配對末端文庫。配對末端文庫是將基因組DNA打斷后,與中間接頭連接,再環(huán)化,然后用EcoP15酶切,使中間接頭兩端各有27bp的堿基,再加上兩端的接頭,形成文庫。
b. 乳液PCR/微珠富集
在微反應(yīng)器中加入測序模板、PCR反應(yīng)元件、微珠和引物,進(jìn)行乳液PCR(Emulsion PCR)。PCR完成之后,變性模板,富集帶有延伸模板的微珠,去除多余的微珠。微珠上的模板經(jīng)過3’修飾,可以與玻片共價(jià)結(jié)合??吹竭@里,是不是有一種似曾相識的感覺呢?那就對了,此步驟與454的GS FLX基本相同。不過SOLiD系統(tǒng)的微珠要小得多,只有1 um。
乳液PCR大的特點(diǎn)是可以形成數(shù)目龐大的獨(dú)立反應(yīng)空間以進(jìn)行DNA擴(kuò)增。其關(guān)鍵技術(shù)是“注水到油”,基本過程是在PCR反應(yīng)前,將包含PCR所有反應(yīng)成分的水溶液注入到高速旋轉(zhuǎn)的礦物油表面,水溶液瞬間形成無數(shù)個(gè)被礦物油包裹的小水滴。這些小水滴就構(gòu)成了獨(dú)立的PCR反應(yīng)空間。理想狀態(tài)下,每個(gè)小水滴只含一個(gè)DNA模板和一個(gè)P1磁珠,由于水相中的P2引物和磁珠表面的P1引物所介導(dǎo)的PCR反應(yīng),這個(gè)DNA模板的拷貝數(shù)量呈指數(shù)級增加,PCR反應(yīng)結(jié)束后,P1磁珠表面就固定有拷貝數(shù)目巨大的同來源DNA模板擴(kuò)增產(chǎn)物。
c. 微珠沉積
3’修飾的微珠沉積在一塊玻片上。在微珠上樣的過程中,沉積小室將每張玻片分成1個(gè)、4個(gè)或8個(gè)測序區(qū)域。SOLiD系統(tǒng)大的優(yōu)點(diǎn)就是每張玻片能容納更高密度的微珠,在同一系統(tǒng)中輕松實(shí)現(xiàn)更高的通量。
d. 連接測序
這一步可就是SOLiD的了。它的*之處在于沒有采用慣常的聚合酶,而用了連接酶。SOLiD連接反應(yīng)的底物是8堿基單鏈熒光探針混合物。連接反應(yīng)中,這些探針按照堿基互補(bǔ)規(guī)則與單鏈DNA模板鏈配對。探針的5’末端分別標(biāo)記了CY5、Texas Red、CY3、6-FAM這4種顏色的熒光染料。探針3’端1~5位為隨機(jī)堿基,可以是ATCG四種堿基中的任何一種堿基,其中第1、2位構(gòu)成的堿基對是表征探針染料類型的編碼區(qū),下圖的雙堿基編碼矩陣規(guī)定了該編碼區(qū)16種堿基對和4種探針顏色的對應(yīng)關(guān)系,而3~5位的“n”表示隨機(jī)堿基,6~8位的“z”指的是可以和任何堿基配對的特殊堿基。
單向SOLiD測序包括五輪測序反應(yīng),每輪測序反應(yīng)含有多次連接反應(yīng)。*輪測序的*次連接反應(yīng)由連接引物“n”介導(dǎo),由于每個(gè)磁珠只含有均質(zhì)單鏈DNA模板,所以這次連接反應(yīng)摻入一種8堿基熒光探針,SOLiD測序儀記錄下探針第1、2位編碼區(qū)顏色信息,隨后的化學(xué)處理斷裂探針3’端第5、6位堿基間的化學(xué)鍵,并除去6~8位堿基及5’末端熒光基團(tuán),暴露探針第5位堿基5’磷酸,為下一次連接反應(yīng)作準(zhǔn)備。因?yàn)?次連接反應(yīng)使合成鏈多了5個(gè)堿基,所以第二次連接反應(yīng)得到模板上第6、7位堿基序列的顏色信息,而第三次連接反應(yīng)得到的是第11、12位堿基序列的顏色信息……
幾個(gè)循環(huán)之后,引物重置,開始第二輪的測序。由于第二輪連接引物n-1比*輪錯(cuò)開一位,所以第二輪得到以0,1位起始的若干堿基對的顏色信息。五輪測序反應(yīng)反應(yīng)后,按照第0、1位,第1、2位... …的順序把對應(yīng)于模板序列的顏色信息連起來,就得到由“0,1,2,3…”組成的SOLiD原始顏色序列。
e. 數(shù)據(jù)分析
SOLiD測序完成后,獲得了由顏色編碼組成的SOLiD原始序列。理論上來說,按照“雙堿基編碼矩陣”,只要知道所測DNA序列中任何一個(gè)位置的堿基類型,就可以將SOLiD原始顏色序列“解碼”成堿基序列。但由于雙堿基編碼規(guī)則中雙堿基與顏色信息的簡并特性(一種顏色對應(yīng)4種堿基對),前面堿基的顏色編碼直接影響緊跟其后堿基的解碼,所以一個(gè)錯(cuò)誤顏色編碼就會(huì)引起“連鎖解碼錯(cuò)誤”,改變錯(cuò)誤顏色編碼之后的所有堿基。
和其它所有測序儀一樣,測序錯(cuò)誤在所難免,關(guān)鍵是對測序錯(cuò)誤的評價(jià)和后續(xù)處理。由于SOLiD系統(tǒng)采用了雙堿基編碼技術(shù),在測序過程中對每個(gè)堿基判讀兩遍,從而減少原始數(shù)據(jù)錯(cuò)誤,提供內(nèi)在的校對功能。這樣,雙保險(xiǎn)確保了SOLiD系統(tǒng)原始堿基數(shù)據(jù)的度大于99.94%,而在15X覆蓋率時(shí)的度可以達(dá)到99.999%,是目前新一代基因分析技術(shù)中度高的。
為避免“連鎖解碼錯(cuò)誤”的發(fā)生,SOLiD數(shù)據(jù)分析軟件不直接將SOLiD原始顏色序列解碼成堿基序列,而是依靠reference序列進(jìn)行后續(xù)數(shù)據(jù)分析。SOLiD序列分析軟件首先根據(jù)“雙堿基編碼矩陣”把reference堿基序列轉(zhuǎn)換成顏色編碼序列,然后與SOLiD原始顏色序列進(jìn)行比較,來獲得SOLiD原始顏色序列在reference的位置,及兩者的匹配性信息。Reference轉(zhuǎn)換而成的顏色編碼序列和SOLiD原始序列的不匹配主要有兩種情況:“單顏色不匹配”和“兩連續(xù)顏色不匹配”。由于每個(gè)堿基都被獨(dú)立地檢測兩次,且SNP位點(diǎn)將改變連續(xù)的兩個(gè)顏色編碼,所以一般情況下SOLiD將單顏色不匹配處理成測序錯(cuò)誤,這樣一來,SOLiD分析軟件就完成了該測序錯(cuò)誤的自動(dòng)校正;而連續(xù)兩顏色不匹配也可能是連續(xù)的兩次測序錯(cuò)誤,SOLiD分析軟件將綜合考慮該位置顏色序列的一致性及質(zhì)量值來判斷該位點(diǎn)是否為SNP。
在初步了解了SOLiD系統(tǒng)的工作原理之后,我們才能明白它的魅力所在。
系統(tǒng)可擴(kuò)展性
SOLiD系統(tǒng)采用開放玻片式的結(jié)構(gòu),使用包被DNA樣品的微珠來輸入基因組信息。微珠密度并不是一成不變的,系統(tǒng)支持更高密度的微珠富集。開放式玻片形式、微珠富集、以及軟件算法的結(jié)合,能使平臺輕松升級到更高的通量,而無需對基礎(chǔ)技術(shù)和配置做重大改變。這也是SOLiD系統(tǒng)平均每季度將通量擴(kuò)大一倍的原因所在。
無以倫比的通量
目前SOLiD 3系統(tǒng)單次運(yùn)行能產(chǎn)生50 GB的人基因組序列數(shù)據(jù),相當(dāng)于基因組的17倍覆蓋度,這顯然是其他任一臺新一代測序系統(tǒng)都無法達(dá)到的。今年初,ABI公司和貝勒醫(yī)學(xué)院人類基因組測序中心(HGSC)的科學(xué)家總結(jié)了他們在千人基因組計(jì)劃數(shù)據(jù)發(fā)布中的貢獻(xiàn)。作為商業(yè)參與者以及與HGSC共同協(xié)作,ABI公司利用SOLiD系統(tǒng)產(chǎn)生了超過460 GB可作圖的序列數(shù)據(jù),比這兩個(gè)機(jī)構(gòu)的預(yù)定目標(biāo)高出了65%。而通量的升高也有望進(jìn)一步降低基因組測序的費(fèi)用,成本只需1萬美元的人類基因組測序指日可待。
大的靈活性
SOLiD 3系統(tǒng)具有兩個(gè)獨(dú)立的流動(dòng)室,讓用戶能在一臺SOLiD分析儀中運(yùn)行兩個(gè)獨(dú)立的實(shí)驗(yàn)——同時(shí)提供兩套儀器。玻片也能分成1個(gè)、4個(gè)或8個(gè)小室。而20個(gè)條形碼序列則提供了額外的靈活性,顯著增加了定向重測序、表達(dá)和ChIP分析的經(jīng)濟(jì)性。目前多能同時(shí)運(yùn)行320個(gè)樣品(2×8×20)。
至此,SOLiD系統(tǒng)已不再是一臺單純的測序儀,而是成為功能更的基因分析儀。除了測序和重測序,還能進(jìn)行全基因表達(dá)圖譜分析、SNP、microRNA、ChIP、甲基化等多種分析。
全基因表達(dá)圖譜分析
芯片大概是目前應(yīng)用廣泛的從全局角度分析基因表達(dá)整體模式的方法。然而,基于雜交技術(shù)的微陣列技術(shù)只限用于已知序列,無法檢測新的mRNA;而且雜交技術(shù)靈敏度有限,難以檢測低豐度的目標(biāo)(需要更多的樣品量),難以檢測重復(fù)序列;也無法捕捉到目的基因表達(dá)水平的微小變化------而這恰恰是研究在刺激下或環(huán)境變化時(shí)的生物反應(yīng)所必需的。
與芯片技術(shù)相比,基于測序的高靈敏SOLiD技術(shù)可對單個(gè)細(xì)胞和癌癥樣品中存在的痕量RNA進(jìn)行整體的全基因組表達(dá)圖譜分析,每次運(yùn)行能定位高達(dá)2億4千萬個(gè)標(biāo)簽(mRNA的相對表達(dá)水平可通過系統(tǒng)產(chǎn)生的序列標(biāo)簽數(shù)目來計(jì)算),可檢測低至每個(gè)細(xì)胞中10-40pg的總RNA,即使mRNA表達(dá)水平很低,SOLiD系統(tǒng)也能夠無偏向性地分析樣品中存在的已知和未知mRNA,從而定量特定mRNA的差異表達(dá)模式。起始樣品比微陣列技術(shù)要少得多,尤其適用于來源極為有限的生物樣品分析,如癌癥干細(xì)胞----分析其基因和非編碼RNA的表達(dá)圖譜有助于有助于加速發(fā)掘潛在的生物標(biāo)志物,從而更區(qū)分不同的疾病類型以及識別疾病易感性,幫助于研究人員更好地了解病變細(xì)胞的特性。
更多RNA研究
除了單細(xì)胞基因表達(dá)圖譜分析,SOLiD系統(tǒng)在RNA方面的其他應(yīng)用還包括利用SOLiD Small RNA Expression Kit來發(fā)現(xiàn)和篩選小分子RNA,實(shí)現(xiàn)在無需預(yù)先知道序列信息的情況下高通量發(fā)現(xiàn)新的RNA分子。這個(gè)方案有望顯著地提高研究人員鑒別小分子RNA的能力,將過去不可能完成的實(shí)驗(yàn)變?yōu)榭赡?。目前已發(fā)現(xiàn)的microRNAs還非常有限,SOLiD可在不知道目標(biāo)分子DNA序列的情況下進(jìn)行檢測和定量小的RNA分子,可將樣品制備工作從常規(guī)方法的四天縮短為僅需一天,是分析在生物樣品中表達(dá)的已知和未知miRNA及其它小分子RNAs的有效工具。利用SOLiD Whole Transcriptome Kit還可以探索和鑒定全轉(zhuǎn)錄本。SOLiD*的高通量和測序數(shù)據(jù)的高性使得可以用短序列讀長即可測序整個(gè)轉(zhuǎn)錄組。了解轉(zhuǎn)錄組對有助于解開導(dǎo)致復(fù)雜疾病的分子通路的秘密。這一系列應(yīng)用補(bǔ)充使研究人員能在單個(gè)超高通量平臺上開展綜合的RNA研究。
SNP分析
盡管絕大多數(shù)的人類遺傳信息在所有人中都相同,但是研究人員通常更感興趣的是研究個(gè)體之間微小的遺傳差異。這種差異包括單堿基變異,以及被稱為結(jié)構(gòu)變異的各種較大片段DNA序列變異。結(jié)構(gòu)變異包括DNA片段的插入、缺失、倒位和易位,結(jié)構(gòu)變異的DNA片段范圍可從幾個(gè)堿基對到數(shù)百萬個(gè)堿基對,可能對基因產(chǎn)生重要影響,并導(dǎo)致人類疾病的發(fā)生。SOLiD流程獲得的嚴(yán)密的片段范圍,使研究人員可以鑒別出很寬范圍內(nèi)的插入和缺失片段,結(jié)構(gòu)重排也能很容易鑒別出來。這個(gè)平臺的超高通量使研究人員可輕而易舉地獲得高度基因組覆蓋率的數(shù)據(jù),鑒定個(gè)體基因組中存在的數(shù)百萬個(gè)單堿基多態(tài)性SNP,揭示此前未知、具有潛在醫(yī)學(xué)價(jià)值的遺傳變異,從而促進(jìn)我們對正常/疾病狀態(tài)下DNA結(jié)構(gòu)變異的了解,以及在更高的分辨率下對結(jié)構(gòu)變異進(jìn)行深入分析,解釋個(gè)體之間的易感性差異和對疾病治療應(yīng)答的差異,終實(shí)現(xiàn)個(gè)性化醫(yī)療。
甲基化分析
甲基化是自然發(fā)生的DNA化學(xué)修飾的一種。已知抑癌基因的失活與DNA序列特定區(qū)域的甲基化有關(guān)。而去甲基化則可能導(dǎo)致基因組不穩(wěn)定和表達(dá)模式變化。DNA甲基化區(qū)域可能作為基因在癌癥過程中的標(biāo)記。研究人員一直研究從正常到癌變過程中甲基化模式如何變化的,原癌基因異常甲基化模式在癌變過程中扮演怎樣的角色。SOLiD系統(tǒng)運(yùn)行通量非常驚人,很快就可以做多個(gè)樣本全基因組甲基化模式檢測,使得研究人員可以鑒別基因組中對應(yīng)元件的甲基化狀態(tài),從而幫助研究人員檢測甲基化模式是否可以作為癌癥的生物標(biāo)識,以及更好了解甲基化在癌變過程中扮演的角色。