Ile miejsca wymagałoby przechowywania ludzkiego genomu?


84

Szukam ilości pamięci w bajtach (MB, GB, TB itp.) Wymaganej do przechowywania pojedynczego ludzkiego genomu. Przeczytałem kilka artykułów na Wikipedii na temat DNA, chromosomów, par zasad, genów i zgaduję, ale zanim cokolwiek ujawnię, chciałbym zobaczyć, jak inni podejdą do tego problemu.

Alternatywnym pytaniem byłoby, ile atomów znajduje się w ludzkim DNA, ale to byłoby poza tematem tej strony.

Rozumiem, że będzie to przybliżenie, więc szukam minimalnej wartości, która byłaby w stanie przechowywać DNA każdego człowieka.


Jeśli chodzi o liczbę atomów, zależy to od składu. A i T są mniejszymi cząsteczkami niż G i C. Struktura cząsteczki to jednak wołowina, a nie jej skład atomowy, więc nie jest to zbyt przydatne obliczenie. (Na ile to jest warte, np. Cząsteczka A aka deoksyadenozyna to C10H13N5O3, czyli 31 atomów.)
tripleee


Z wyjątkiem użytkowników slaytona, Paula Amstronga i rauchen, wszystkie inne podane odpowiedzi są w istocie całkowicie błędne lub dalekie od kompletności. W odpowiedziach użytkownik (nie) wspomniał o metodach kompresji lub jest słabo wyjaśniony. Zobacz moją odpowiedź, aby wyjaśnić czterokrotne zmniejszenie genomu, co widać w wielu odpowiedziach.
ZF007

Głosuję za zamknięciem tego pytania jako
niezwiązanego

Odpowiedzi:


68

Jeśli ufasz takim rzeczom, oto co twierdzi Wikipedia (z http://en.wikipedia.org/wiki/Human_genome#Information_content ):

2,9 miliarda par zasad haploidalnego genomu ludzkiego odpowiada maksymalnie około 725 megabajtom danych, ponieważ każda para zasad może być zakodowana za pomocą 2 bitów. Ponieważ poszczególne genomy różnią się od siebie o mniej niż 1%, można je bezstratnie skompresować do około 4 megabajtów.


8
Żeby dodać trochę biologicznego komentarza, „haploid” oznacza tutaj tylko jedną kopię każdego chromosomu. Zestaw odniesienia dla ludzi jest haploidalny (i mozaika wielu osób). Rzeczywisty indywidualny genom będzie diploidalny (2 kopie każdego chromosomu, z wyjątkiem X i Y), ale znowu będzie to tylko wariant między dwiema kopiami w niewielkim podzbiorze miejsc.
Alex Stoddard

9
Zastanawiałem się nad tym przez jeden dzień i zdałem sobie sprawę z tego: gdybyś przechowywał jakiś podstawowy przypadek ludzkiego DNA, każde następne ludzkie DNA musiałoby być przechowywane tylko jako różnica między nim a przypadkiem podstawowym. W przypadku przykładów tej samej płci DNA jest w 99,9% takie samo. W przypadku płci to 98,5%.
Costa

3
Warto również pamiętać, że nie wszystkie informacje zakodowane w parach zasad DNA są również informacjami epigenetycznymi .
Annarfych

to ma sens. pary zasad są w zasadzie 4-nary. 4-nary numer to 2 bity, więc podwoj rozmiar. czyli 5,8 gigabitów lub 5,8 / 8 gigabajtów, czyli 0,725 GB lub 725 MB. „kompresja” jest możliwa tylko dlatego, że można przechowywać różnice względem mapowanego genomu zamiast przechowywać cały genom.
Dave Cousineau

@Annarfych Jest to niezwykle mylące, ponieważ informacje epigenetyczne z definicji nie są dziedziczone (pomimo błędnych twierdzeń w prasie popularnej, że jest inaczej). Informacje dziedziczne są przechowywane tylko w DNA.
Konrad Rudolph

25

Nie przechowujesz całego DNA w jednym strumieniu, a raczej przez większość czasu jest ono przechowywane przez chromosomy.

Duży chromosom zajmuje około 300 MB, a mały około 50 MB.


Edytować:

Myślę, że pierwszym powodem, dla którego nie jest zapisywany w 2 bitach na parę zasad, jest to, że spowodowałoby to przeszkodę w pracy z danymi. Większość ludzi nie wiedziałaby, jak go przekonwertować. A nawet jeśli otrzyma się program do konwersji, wiele osób w dużych firmach lub instytutach badawczych nie może / musi pytać lub nie wie, jak zainstalować programy ...

1 GB pamięci nic nie kosztuje, nawet pobranie 3 GB zajmuje tylko 4 minuty przy 100 Mbit / s, a większość firm ma większe prędkości.

Inną kwestią jest to, że dane nie są tak proste, jak się mówi.

Na przykład metoda sekwencjonowania wymyślona przez Craig_Venter była wielkim przełomem, ale ma swoje wady . Nie mógł oddzielić długich łańcuchów tej samej pary zasad, więc nie zawsze jest w 100% jasne, czy jest 8 lub 9 A. Rzeczy, którymi musisz się później zająć ...

Innym przykładem jest metylacja DNA, ponieważ nie można przechowywać tej informacji w postaci 2-bitowej.


2
+1 ode mnie. Jednak nie mam pojęcia, co oznacza „duży” lub „mały” chromosom?
Milan Babuškov

1
Liczby te nie zgadzają się z tym, co mówi Wikipedia (patrz tabela na stronie en.wikipedia.org/wiki/Human_genome#Information_content ); Nie mówię, że się mylisz, ale czy możesz wyjaśnić tę rozbieżność?
Oliver Charlesworth

Wygląda na to, że cytuje Mbp (milion par zasad, każda para zasad jest pojedynczą pozycją w genomie), a nie MB, które może przyjąć 2-bitowe kodowanie każdej pozycji
Alex Stoddard,

Niektóre z metylacji DNA genomu zmieniają się w ciągu życia organizmu. Uwzględnienie danych dotyczących metylacji DNA dla ludzkiego genomu byłoby bardziej szczegółowym zdjęciem osoby w określonym momencie, a nie ogólnym opisem osoby. Chociaż PO nie sprecyzował, czego chcieli.
cowlinator

12

Zasadniczo każda para zasad zajmuje 2 bity (możesz użyć 00, 01, 10, 11 dla T, G, C i A). Ponieważ w ludzkim genomie jest około 2,9 miliarda par zasad, (2 * 2,9 miliarda) bitów ~ = 691 megabajtów.

Nie jestem ekspertem, jednak strona Human Genome w Wikipedii podaje, co następuje:

Surowy MB:

  • Mężczyzna (XY): 770 MB
  • Kobieta (XX): 756 MB

Nie jestem pewien, skąd się bierze ich rozbieżność, ale jestem pewien, że możesz to rozgryźć.


6
Realistycznie wymagane są więcej niż 2 bity, ponieważ istnieją inne bazy przechowywane w informacjach o sekwencji ( Nna przykład, gdy dane nie są mapowane, a zatem są nieznane). Kody nukleotydów IUPAC obejmują więcej niż standardowe cztery, co może zwiększyć narzut przechowywania. ebi.ac.uk/2can/tutorials/aa.html
Alex Reynolds

Uszkodzony link @AlexReynolds: /
o0 '.

2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html to lepszy link do tych kodów IUPAC. AIUI, "skanowanie" konkretnego genomu wymaga więcej niż 2 bitów z powodu niedokładności, a więc Rdla A lub G, Ndla dowolnej bazy, .dla przerwy itp. Gdybyśmy mogli doskonale odczytać genom, byłoby to tylko 2 bity na bazę .
narciarz

1
Chromosom X jest pojedynczy dla kobiet. Samce mają dodatkowo chrom Y. być zakodowanym, co, jak wszyscy wiemy, różni się od X crhom.
ZF007

Zależy to również od tego, jak zdefiniujesz Megabajt : binarny 2 ^ 20 lub metryczny 10 ^ 6 bajtów. Używasz binarnego, więc twoja liczba jest niższa.
il - ya

8

Tak, minimalna ilość pamięci RAM potrzebna dla całego ludzkiego DNA to około 770 MB. Jednak reprezentacja 2-bitowa jest niepraktyczna. Trudno jest go przeszukać lub wykonać na nim jakieś obliczenia. Dlatego niektórzy matematycy opracowali bardziej efektywny sposób przechowywania tych sekwencji zasad ... i wykorzystania ich w algorytmach wyszukiwania i porównywania, takich jak na przykład GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Ta aplikacja działa teraz na moim komputerze, więc mogę Ci powiedzieć ... że praktycznie ma DNA przechowywane w około: 1 563 MB .


4

Większość odpowiedzi, z wyjątkiem użytkowników Slaytona, Rauchen, Paula Amstronga, jest w błędzie, jeśli chodzi o czyste przechowywanie jeden na jeden bez technik kompresji.

Ludzki genom z 3 Gb nukleotydów odpowiada 3 Gb bajtów, a nie ~ 750 MB. Skonstruowany genom „haploidalny” według NCBI ma obecnie rozmiar 3436687 kb lub 3,436687 Gb. Sprawdź tutaj .

Haploid = pojedyncza kopia chromosomu. Diploid = dwie wersje haploidu. Ludzie mają 22 unikalne chromosomy x 2 = 44. Mężczyzna 23. chromosom to X, Y i stanowi łącznie 46. Suki 23 chrom. wynosi X, X, a więc w sumie 46.

W przypadku mężczyzn byłby to chromosom 23 + 1 w miejscu przechowywania danych na dysku twardym, a dla kobiet 23 chromosomy, co wyjaśnia drobne różnice, o których od czasu do czasu wspomina się w odpowiedziach. X chrom. od samców jest równy chromowi X. od samic.

W ten sposób ładowanie genomu (23 + 1) do pamięci odbywa się w częściach przez BLAST przy użyciu skonstruowanych baz danych z plików fasta. Niezależnie od wersji spakowanych lub nie, nukleotydy trudno skompresować. We wczesnych latach jedną z używanych sztuczek było zastąpienie powtórzeń tandemowych (GACGACGAC z krótszym kodowaniem, np. „3GAC”; 9 do 4 bajtów). Powodem była oszczędność miejsca na dysku twardym (obszar talerzy HDDD 500bm-2GB z 7.200 rpm i złączami SCSI). W przypadku wyszukiwania sekwencji dokonano tego również za pomocą zapytania.

Gdyby pamięć "zakodowanego nukleotydu" wynosiłaby 2 bity na literę, otrzymujesz bajt:

A = 00
C = 01
G = 10
T = 11

Tylko w ten sposób w pełni zyskasz na pozycjach 1, 2, 3, 4, 5, 6, 7 i 8 za 1 bajt kodowania. Na przykład kombinacja 00.01.10.11 (jako bajt00011011 ) odpowiadałaby wówczas „ACTG” (i byłaby wyświetlana w pliku tekstowym jako nierozpoznawalny znak). Samo to jest odpowiedzialne za czterokrotne zmniejszenie rozmiaru pliku, co widzimy w innych odpowiedziach. W związku z tym rozmiar 3,4 Gb zostanie zmniejszony do 0,85917175 Gb ... ~ 860 MB, w tym wymagany wówczas program konwersji (23kb-4mb).

Ale ... w biologii chcesz być w stanie coś przeczytać, więc kompresja gzip jest więcej niż wystarczająca. Po rozpakowaniu nadal możesz go przeczytać. Jeśli użyto tego bajtu, odczytanie danych będzie trudniejsze. Dlatego w rzeczywistości pliki fasta są zwykłymi plikami tekstowymi.


1
Możesz go równie dobrze przechowywać jako zdjęcie lub nagranie audio, a nawet wideo - a przechowywanie zajmie terabaty. Ale to nie jest wymagane i minimalne , jak o to pytano.
il - ya

@ il - ya ... Brakuje mi celu, który próbujesz zrobić ... (myślę, że lubisz przesuwać około 250 km taśmy TDK .. o wadze 600 kg i przewijanie zajmuje trzy godziny)?
ZF007,

1
Chodzi o to, że 1 z 4 par zasad jest kodowana za pomocą 2 bitów informacji. To jest ilość danych potrzebnych do zakodowania - nie możesz kodować za pomocą mniejszej ilości. Ale możesz zdecydować się na zakodowanie go w inny sposób: możesz użyć całego bajtu, narysować obrazek, który zajmuje kilka kB lub nagrać dźwięk. Wszystko to nadal pozwoliłoby na przechowywanie wymaganych informacji, ale nie byłoby to wymagane lub minimalne kodowanie. Samowolnie narzuciłeś kryteria czytelności (używając standardowego edytora tekstu), czego nie zadawano w pierwotnym pytaniu.
il - ya

Niestety nie tak to działa w biologii. Metodą komunikacji między naukowcami jest werbalna, papierowa lub tekstowa w formacie, który można łatwo odczytać z ekranu. W przypadku, gdy masz jedną parę zasad, wystarczy wypełnić bajt zerami lub jedynkami. Istnieją jednak 4 podstawy (2 pary). W bajcie masz 4 pozycje dla pary bazowej i 4 pozycje, które wskazują typ pary bazowej. Kompresja danych działa, ale ludzie potrzebują czytelności. Pojedynczy piksel w kodzie RGB (3 wartości i wartość intensywności) zajmuje 32 bajty. Tylko 8 bitów na list. Dlatego nie ma sensu robić z niej Mona Lisy, prawda?
ZF007,

6
ZF007, przegapiłeś mój punkt widzenia na temat minimalności. Pytanie brzmiało: „Ile pamięci byłoby potrzebne do przechowywania ludzkiego DNA?” z dalszymi szczegółami "... Szukam minimalnej wartości, która byłaby w stanie przechowywać DNA każdego człowieka." Teraz stara się odpowiedzieć na inne pytanie , a mianowicie „Ile pamięci zajęłoby przechowywania ludzkiego DNA w czytelnej formie używanej przez biologów do komunikowania genomu danych ?” jeśli skompresujesz czytelne dane tekstowe za pomocą dobrego algorytmu kompresji, zmniejszy to jego rozmiar znacznie poniżej 2 bitów na parę zasad.
il - ya

3

Genom ludzki zawiera 2,9 miliarda par zasad. Więc jeśli przedstawisz każdą parę zasad jako bajt, zajmie to 2,9 miliarda bajtów lub 2,9 GB. Prawdopodobnie możesz wymyślić bardziej kreatywny sposób przechowywania par zasad, ponieważ każda para zasad wymaga tylko 2 bitów. Więc prawdopodobnie mógłbyś przechowywać 4 pary bazowe na bajt, zmniejszając w sumie mniej niż GB.


bity ~ = bajty. 2,9 miliarda bitów to około 350 MB
SDGuero

4
@SDGuero, pary zasad to podstawa 4, a nie podstawa 2, więc potrzebujesz co najmniej 2 bitów, aby przedstawić parę zasad.
Slayton

BS w języku bitowym ... każda baza nukleotydowa ma 1 znak, a więc 1 bajt, niezależnie od użytej tablicy konwersji znaków (AscII, UTF-8, itp.); bez 2-bajtowego kodowania azjatyckiego.
ZF007

1
@ zf007 Pary bazowe są reprezentowane przez ŻETONY a, c, g oraz t. Żeton to nie to samo co postać. Nie ma powodu, dla którego a nie można zakodować jako 00, c jako 01, g jako 10
it

1
Jest rozbieżność; twierdzisz, że potrzebny jest plik czytelny dla człowieka, którego nie ma w oryginalnym poście.
MatBailie,

3

Istnieją 4 zasady nukleotydowe, które tworzą nasze DNA, są to A, C, G, T, dlatego każda zasada w DNA zajmuje 2 bity. Baz jest około 2,9 miliarda, czyli około 700 megabajtów. Dziwne jest to, że wypełniłoby normalną płytę CD z danymi! zbieg okoliczności?!?


3

po prostu to zrobiłem. surowa sekwencja to ~ 700 MB. jeśli ktoś używa ustalonej sekwencji pamięci lub algorytmu pamięci o ustalonej sekwencji - i fakt, że zmiany wynoszą 1% i, oblicza się ~ 120 MB z pamięcią perchromosomową o przesunięciu sekwencji o ustaloną elta. to wszystko do przechowywania.


1

Wszystkie odpowiedzi pomijają fakt, że nuDNA nie jest jedynym DNA definiującym ludzki genom. mtDNA jest również dziedziczone i wnosi dodatkowe 16 500 par zasad do ludzkiego genomu, zbliżając go bardziej do przypuszczeń Wikipedii, że 770 MB dla mężczyzn i 756 MB dla kobiet.

Nie oznacza to, że ludzki genom można łatwo przechowywać na pendrive o pojemności 4 GB. Bity same w sobie nie reprezentują informacji, jest to połączenie bitów, które reprezentują informacje. Tak więc w przypadku nuDNA i mtDNA bity są kodowane (nie mylić ze skompresowanymi), aby reprezentowały białka i enzymy, które same w sobie wymagałyby wielu MB nieprzetworzonych danych, szczególnie pod względem funkcjonalności.

Do przemyślenia: 80% ludzkiego genomu nazywa się „niekodującym” DNA, więc czy naprawdę wierzyłeś, że całe ludzkie ciało i mózg można przedstawić w zaledwie 151–154 MB surowych danych?


-3

Istnieją tylko 2 rodzaje par zasad, cytozyna może wiązać się tylko z guaniną, a adenina może wiązać się tylko z tyminą, więc każdą parę zasad można uznać za pojedynczy bit. Oznacza to, że cała nić ludzkiego DNA ~ 3 miliardy „bitów” miałaby około ~ 350 megabajtów.


2
Masz 2 rodzaje par i mogą być w dwóch kierunkach - więc potrzebujesz dwóch bitów na każdą parę. Dlatego większość powyższych postów zapisuje ~ 700 MB, a nie 350 MB.
Trondster

-3

Jedna podstawa - T, C, A, G (w systemie liczbowym o podstawie 4: 0, 1, 2, 3) - jest kodowana jako dwa bity (nie jeden), więc jedna para zasad jest kodowana przez cztery bity .


2
Tyle że zasady w parze uzupełniają się, więc nie dodawaj żadnych informacji. Tak więc zarówno baza, jak i para zasad mogą być kodowane za pomocą dwóch bitów.
il - ya

Jeśli masz „A”, czym go uzupełniasz? "AC" "AG" "AT" są ważne. Podobnie, jeśli masz „T”, „TG” „TC” „TA” są prawidłowe, więc co robisz?
Roger Johansson

1
@RogerJohansson Nie, tylko para zasad „AT” jest ważna w DNA. To samo dotyczy „TA”, „CG” i „GC”. Nie istnieje żadna inna kombinacja par zasad.
Konrad Rudolph

@KonradRudolph jest co najmniej dziewięć puryn ( en.wikipedia.org/wiki/Purine ). Wszystkich z nich można użyć do zastąpienia A lub G. To uczyniłoby rozwiązanie pytania OP bardziej złożonym. Zgadzam się zachować prostotę i trzymać się A, G, T i C.
ZF007

1
@ ZF007 Istnieją, ale nie występują stabilnie w ludzkich genomach i dlatego nie są istotne dla przechowywania genomu. Ich znaczenie biologiczne jest ważne tylko w kontekście mutacji (i to tylko przejściowo) i modyfikacji RNA. W szczególności (w kontekście tej odpowiedzi) dane genomowe nie są przechowywane jako „pary zasad”, są przechowywane jako sekwencja pojedynczych zasad, a każda pozycja może być zakodowana w dwóch bitach. To nie jest teoretyczne, tak to się właściwie robi (z wyjątkiem tego, że dla większości aplikacji dane genetyczne są przechowywane w (spakowanym gzipem) ASCII, a nie skompresowane bitowo).
Konrad Rudolph
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.