Większość odpowiedzi, z wyjątkiem użytkowników Slaytona, Rauchen, Paula Amstronga, jest w błędzie, jeśli chodzi o czyste przechowywanie jeden na jeden bez technik kompresji.
Ludzki genom z 3 Gb nukleotydów odpowiada 3 Gb bajtów, a nie ~ 750 MB. Skonstruowany genom „haploidalny” według NCBI ma obecnie rozmiar 3436687 kb lub 3,436687 Gb. Sprawdź tutaj .
Haploid = pojedyncza kopia chromosomu. Diploid = dwie wersje haploidu. Ludzie mają 22 unikalne chromosomy x 2 = 44. Mężczyzna 23. chromosom to X, Y i stanowi łącznie 46. Suki 23 chrom. wynosi X, X, a więc w sumie 46.
W przypadku mężczyzn byłby to chromosom 23 + 1 w miejscu przechowywania danych na dysku twardym, a dla kobiet 23 chromosomy, co wyjaśnia drobne różnice, o których od czasu do czasu wspomina się w odpowiedziach. X chrom. od samców jest równy chromowi X. od samic.
W ten sposób ładowanie genomu (23 + 1) do pamięci odbywa się w częściach przez BLAST przy użyciu skonstruowanych baz danych z plików fasta. Niezależnie od wersji spakowanych lub nie, nukleotydy trudno skompresować. We wczesnych latach jedną z używanych sztuczek było zastąpienie powtórzeń tandemowych (GACGACGAC z krótszym kodowaniem, np. „3GAC”; 9 do 4 bajtów). Powodem była oszczędność miejsca na dysku twardym (obszar talerzy HDDD 500bm-2GB z 7.200 rpm i złączami SCSI). W przypadku wyszukiwania sekwencji dokonano tego również za pomocą zapytania.
Gdyby pamięć "zakodowanego nukleotydu" wynosiłaby 2 bity na literę, otrzymujesz bajt:
A = 00
C = 01
G = 10
T = 11
Tylko w ten sposób w pełni zyskasz na pozycjach 1, 2, 3, 4, 5, 6, 7 i 8 za 1 bajt kodowania. Na przykład kombinacja 00.01.10.11 (jako bajt00011011
) odpowiadałaby wówczas „ACTG” (i byłaby wyświetlana w pliku tekstowym jako nierozpoznawalny znak). Samo to jest odpowiedzialne za czterokrotne zmniejszenie rozmiaru pliku, co widzimy w innych odpowiedziach. W związku z tym rozmiar 3,4 Gb zostanie zmniejszony do 0,85917175 Gb ... ~ 860 MB, w tym wymagany wówczas program konwersji (23kb-4mb).
Ale ... w biologii chcesz być w stanie coś przeczytać, więc kompresja gzip jest więcej niż wystarczająca. Po rozpakowaniu nadal możesz go przeczytać. Jeśli użyto tego bajtu, odczytanie danych będzie trudniejsze. Dlatego w rzeczywistości pliki fasta są zwykłymi plikami tekstowymi.