Artykuły dla pacjenta

Platforma obliczeniowa do pracy z danymi genomicznymi

Ostatnie postępy w metodach sekwencjonowania DNA i RNA całkowicie odmieniły genomikę, umożliwiając szybkie i tanie generowanie dużych ilości danych. Naukowcy korzystający z dofinansowania UE opracowali teraz narzędzia statystyczne umożliwiające analizowanie setek gigabajtów danych generowanych przy każdym przebiegu sekwencjonowania.

Postępy poczynione w drodze od pierwszego sekwencjonowania genomu człowieka do zbliżającej się wielkimi krokami ery medycyny genomicznej były możliwe dzięki technikom sekwencjonowania z dużą przepustowością (HTS). Metoda ta umożliwia szybkie sekwencjonowanie dużych odcinków par zasad DNA i RNA, obejmujących całe genomy. Wyodrębnianie znaczących sygnałów biologicznych z danych HTS wymaga jednak zaawansowanych narzędzi statystycznych o dużej wydajności obliczeniowej.

Za cel finansowanego ze środków UE projektu RADIANT (Rapid development and distribution of statistical tools for high-throughput sequencing data) przyjęto ulepszenie najpopularniejszych narzędzi analizy danych. Jego głównym założeniem było zintegrowanie pakietów oprogramowania opracowanych przez badaczy z Francji, Niemiec, Szwajcarii, Wielkiej Brytanii i Włoch w jedną platformę obliczeniową.

Jednym z nich jest napisana w języku Python biblioteka HTSeq, która dokonuje wstępnej obróbki danych z sekwencjonowania RNA pod kątem analizy różnicowej ekspresji genów. Pakiet DESeq2 udostępnia metody wykrywania różnicowo ekspresjonowanych genów przy użyciu uogólnionych modeli liniowych. Z kolei w pakiecie BitSeqVB implementowano bayesowską metodę wnioskowania na temat stężenia transkryptów RNA informacyjnego.

Badania prowadzone w ramach projektu RADIANT objęły wszystkie aspekty analizy danych HTS, od kontroli jakości do wizualizacji danych. Dla szeregu czasowego ekspresji genów zaproponowano hierarchiczne modelowanie bayesowskie umożliwiające uzupełnianie brakujących danych w sposób systematyczny, jak i losowy. Przeglądarka genomu RADIANT jest pierwszym narzędziem do wizualizacji danych dotyczących metylacji DNA.

Większość narzędzi zintegrowano w ramach platformy Bioconductor, tworząc jednolite środowisko analizy, dokumentowania i dystrybucji danych HTS. Ogromna liczba pakietów dostępnych na platformie Bioconductor utrudnia jednak mniej doświadczonym użytkownikom rozwiązywanie konkretnych problemów. Opracowano zatem "ściągawkę" dla początkujących, stanowiącą proste, a zarazem kompletne wprowadzenie do zagadnień analizy danych sekwencjonowania RNA.

Dzięki możliwości niezwykle dokładnego badania genomu człowieka techniki sekwencjonowania są obecnie stosowane praktycznie we wszystkich gałęziach badań biologicznych i medycznych. Nowo opracowane narzędzia projektu RADIANT przyczynią się do ugruntowania pozycji analizy danych HTS jako nieodzownego narzędzia naukowego. Przewidywane zastosowania mogą odmienić oblicze badań genomicznych, otwierając drogę ku nieosiągalnym dotąd odkryciom.

data ostatniej modyfikacji: 2016-07-04 14:37:50