文章摘要: 但通過對一個公共DNA資料庫的搜尋在現有的資料庫中搜索樣本匹配
根據《科學》雜誌的一篇新論文,一個相對較小的資料庫可以匹配整個人口
插圖作者:Alex Castro / The Verge
今年4月,警方用一種以前未使用過的DNA技術,解開了一個長達幾十年的謎團 – 金州殺手的身份。在現有的資料庫中搜索樣本匹配,結果一無所獲,但通過對一個公共DNA資料庫的搜尋,找到了10到15個可能的遠親,這讓警方縮小了嫌疑人名單的範圍,最終給了他們所需的線索。
這是當時的一項新技術,但在取得了高調的成功後,該技術已被證明是法醫學領域最強大的新工具之一。在此後的幾個月裡,像Parabon NanoLabs和DNA Doe Project 這樣的組織通過這種名為”公共資料庫家族DNA測試”的方法,至少鑑定了19個不同的懸案樣本,為以前無法解決的案例提供了至關重要的新線索。
現在,一對新的發現可以使這項技術更加強大。今天發表在《科學》雜誌上的一篇論文發現,同樣的技術的應用範圍可能比當代實驗室所意識到的要廣得多,在相對較小的樣本基礎上覆蓋了幾乎所有的人群。與此同時,在《細胞》雜誌上發表的研究人員已經設計出一種從不完整的樣本中推斷出來的方法,構建了一個比最初測試的更廣泛的基因組圖。總而言之,這些技術將允許研究人員僅使用現有的樣本就能識別幾乎任何人,這是一種強大得驚人的DNA取證新工具。
家族DNA檢測是對傳統DNA測試的一次突破,傳統的DNA測試尋找正面匹配,例如將來自血淋淋的手套的DNA與來自特定嫌疑人的DNA相匹配。至關重要的是,只有在嫌疑人的DNA能夠被採集的情況下,才能進行配對,這使得大多數懸案無法進行配對。但家族DNA搜尋尋找的是部分匹配,這可能表明樣本來自兄弟姐妹或父母,而不是同一個人。這還不足以確定一個人的身份,但它可以給警方一個關鍵的線索,可以進行進一步的測試。
爲了找到這些部分匹配,實驗室在很大程度上依賴於公共DNA資料庫,如GEDMatch和DNALand。這些搜尋不需要法院批准,因為資料已經公開,但它們的範圍更加有限。最大的資料庫GEDMatch只包含不到100萬個基因譜,這大大限制了許多搜尋的範圍。相比之下,FBI的國家DNA索引包含超過1700萬份個人資料,但只能在特定的法律環境下訪問。像23andMe和MyHeritage這樣的消費者DNA服務也包含了更多樣本,但他們的政策通常會排除此類執法搜查。
其結果是對資料的新一輪爭奪,以及公眾資料能走多遠的新不確定性。”最大的限制是覆蓋範圍,”哥倫比亞大學電腦科學教授,MyHeritage的首席科學家Yaniv Erlich說。”即使你找到一個人,也需要從這個角度進行復雜的分析。”
現在,Erlich已經與哥倫比亞大學和希伯來大學的其他研究人員一起研究了這種覆蓋範圍的到底能達到多遠。對於《科學》雜誌的這篇論文,該團隊檢視了一個128萬個人的資料(主要來自MyHeritage資料庫),並對某一特定人與資料庫中DNA的親屬相匹配的可能性進行了統計分析。根據這些結果,研究人員發現,超過60%的搜尋將導致第三代表親或更接近的匹配(與金州殺手嫌疑人使用相同的接近度),從而提供了一個合理的機會去識別目標。因此,研究人員估計,資料庫只需覆蓋2%的目標人群,即可為幾乎任何人提供第三代表親或更好的匹配。”隨著消費者基因組學的指數級增長,”研究人員寫道,”我們認為,在不久的將來,這種資料庫規模在一些第三方網站上是可以預見的。”
值得注意的是,這一預測是基於一個同質的群體,但大多數遺傳資料顯示出顯著的種族差異。最重要的是在執法資料庫中,這些資料庫是從被捕者或罪犯人口中提取的,因此傾向於黑人和拉丁裔人口。 Erlich說,消費者和公共資料庫表現出相反的偏向,偏向高加索人,這些人隨後更有可能通過家族搜尋被確定身份。
與此同時,另一組科學家正在進一步擴大這些技術的應用範圍。消費者基因測試提取的基因組部分與執法測試不同,這導致在無法獲得完整樣本時持續的比較問題。但斯坦福大學,加州大學戴維斯分校和密歇根大學的一組研究人員利用已知的不同基因序列之間的相關性,開發了一種方法,可以在基因組不重疊的情況下比較結果。這種方法還沒有完全開發出來,但它可以讓法醫分析師在他們可以使用的資料型別上擁有更大的靈活性。
根據負責《Cell》論文的加州大學戴維斯分校的Michael Edge的研究,這項新研究”提出了一個框架,執法部門可以使用這個框架開始考慮現有STR資料庫與SNP資料的向後相容性,但還需要做更多的工作來了解它的實用性。”