Algorytm szybkiego dopasowywania ciągów niezgodności k

Szukam szybkiego algorytmu dopasowywania ciągów typu k-mismatch. Biorąc pod uwagę ciąg wzorca P o długości m i ciąg tekstowy T o długości n, potrzebuję szybkiego algorytmu (czas liniowy), aby znaleźć wszystkie pozycje, w których P pasuje do podłańcucha T z co najwyżej k niedopasowań. Różni się to od problemu różnic k (edycja odległości). Niedopasowanie oznacza podłańcuch, a wzór ma inną literę w co najwyżej k pozycjach. Naprawdę wymagam tylko k = 1 (maksymalnie 1 niedopasowanie), więc wystarczy szybki algorytm dla konkretnego przypadku k = 1. Rozmiar alfabetu to 26 (tekst angielski bez rozróżniania wielkości liter), więc zapotrzebowanie na miejsce nie powinno rosnąć zbyt szybko wraz z rozmiarem alfabetu (np. Algorytm FAAST, jak sądzę, zajmuje miejsce wykładniczo w wielkości alfabetu, i tak nadaje się tylko do sekwencji białkowych i genowych).

Podejście oparte na programowaniu dynamicznym będzie w najgorszym przypadku wynosić O (mn), co będzie zbyt wolne. Sądzę, że istnieją modyfikacje algorytmu Boyera-Moore'a, ale nie jestem w stanie zdobyć takich dokumentów. Nie mam abonamentu na dostęp do czasopism naukowych ani publikacji, więc wszelkie odniesienia będą musiały być własnością publiczną.

Byłbym bardzo wdzięczny za wszelkie wskazówki lub odniesienia do swobodnie dostępnych dokumentów lub samego algorytmu dla tego problemu.

— Paresh
źródło

Jeśli wzorzec jest ustalony (ale dopasowany tekst jest różny), możesz potencjalnie utworzyć automat skończony i przepuścić przez niego tekst. Istnieją również algorytmy wykorzystujące drzewa sufiksów (zwykle dobre, jeśli tekst jest stały, a wzór różni się, ale można je również stosować, jeśli oba się różnią), może być w stanie znaleźć pewne odniesienia w Internecie. (Jeszcze nie dodałem odpowiedzi, ponieważ nie jestem pewien algorytmów opartych na drzewie sufiksów, jeśli ktoś wie, możesz zignorować ten komentarz).

— Aryabhata

@Aryabhata Thanks! Zmienia się zarówno wzór, jak i tekst. W tym kontekście zbudowanie automatu skończonego byłoby zbyt kosztowne, zwłaszcza gdy uwzględniono by zakres niedopasowania 1. Jeśli chodzi o drzewa sufiksów / tablice sufiksów, nigdy ich nie używałem i niewiele o nich wiem, ale miałem wrażenie, że są one powolne w budowie i wydajne głównie w celu dokładnego dopasowania. Ale zbadam tę opcję dalej. Wszelkie wskazówki w tym kierunku lub w innym kierunku byłyby najbardziej przydatne!

— Paresh,

Nie, drzewa sufiksów mogą być również używane do przybliżonych dopasowań. Przynajmniej wiki twierdzi, więc: en.wikipedia.org/wiki/Suffix_tree

— Aryabhata

Odpowiedzi:

W przypadku tego problemu można zastosować tablice sufiksów . Zawierają pozycje początkowe każdego sufiksu ciągu posortowane w kolejności leksykograficznej. Mimo że można je konstruować naiwnie ze złożonością , istnieją metody ich konstruowania ze złożonością . Zobacz na przykład to i to . Nazwijmy tę tablicę przyrostków SA. $O(n\log n)$ $\Theta(n)$

Po zbudowaniu tablicy sufiksów musimy zbudować najdłuższą wspólną tablicę prefiksów (LCP) dla tablicy sufiksów. Tablica LCP przechowuje długość najdłuższego wspólnego przedrostka między dwoma kolejnymi przedrostkami w tablicy przyrostków (leksykograficzne kolejne przyrostki). Zatem LCP [i] zawiera długość najdłuższego wspólnego przedrostka między SA [i] i SA [i + 1]. Tę tablicę można również skonstruować w czasie liniowym: patrz tutaj , tutaj i tutaj, aby znaleźć dobre referencje.

Teraz, aby obliczyć długość najdłuższego prefiksu wspólnego dla dowolnych dwóch sufiksów w drzewie sufiksów (zamiast kolejnych sufiksów), musimy użyć struktury danych RMQ . W powyższych odnośnikach pokazano (i można to łatwo zobaczyć, jeśli tablica jest wizualizowana jako drzewo sufiksów), że długość najdłuższego wspólnego prefiksu między dwoma sufiksami mającymi pozycje i ( ) w tablicy sufiksów , można otrzymać jako $u$ $v$ $u < v$ $min_{u<=k<=v-1}{LCP[k]}$ . Dobra RMQ może wstępnie przetwarzać tablicę w czasie lub i odpowiadać na zapytania o formę w czasie . Zobacz tutaj, aby uzyskać pomocny algorytm RMQ, a tutaj dobry poradnik na temat RMQ oraz relacji (i redukcji) między LCA i RMQ. To ma inne miłe alternatywne podejście. $LCP$ $O(n)$ $O(n\log n)$ $LCP[u, v]$ $O(1)$

Na podstawie tych informacji konstruujemy tablicę sufiksów i powiązane tablice (jak opisano powyżej) do konkatenacji dwóch łańcuchów z separatorem pomiędzy nimi (takich jak T # P, gdzie „#” nie występuje w żadnym ciągu). Następnie możemy wykonać dopasowanie k niezgodnego ciągu znaków przy użyciu metody „kangur”. To i to wyjaśnia metodę kangura w kontekście drzewek sufiksów, ale może być również bezpośrednio stosowane do tablic sufiksów. Dla każdego indeksu tekstu znajdź sufiksu rozpoczynającego się od i sufiksu $i$ $T$ $LCP$ $T$ $i$ $P$ zaczynając od 0. Daje to lokalizację, po której następuje pierwsze niedopasowanie podczas dopasowywania do . Niech ta długość będzie . Pomiń niedopasowany znak w i i spróbuj dopasować pozostałe ciągi. Oznacza to, że ponownie znajdź z i . Powtarzaj tę czynność, aż uzyskasz niedopasowania lub którykolwiek z łańcuchów zakończy się. Każdy $P$ $T[i]$ $l_0$ $T$ $P$ $LCP$ $T[i + l_0 + 1]$ $P[l_0 + 1]$ $k$ oznacza . Istnieje „S dla każdego indeksu z , co daje to całkowity złożoność . $LCP$ $O(1)$ $O(k)$ $LCP$ $i$ $T$ $O(nk)$

$O(nk + (n+m)\log(n+m))$ $O(nk + n\log n)$ $m = O(n)$ $O(nk)$

— Paresh
źródło

Świetny! Mam teraz trochę lektury na mojej liście DO ZROBIENIA :-)

— Aryabhata

Link siam.org w drugim akapicie jest zepsuty, ale link do papieru można znaleźć tutaj epubs.siam.org/doi/pdf/10.1137/1.9781611972917.3

— leecbaker

$\mathcal{O}(n + m )$ $k$ $\mathcal{O}(nk +m )$

Pomysł jest podobny do algorytmu toczenia hash Rabin-Karp dla dokładnych dopasowań podciągów.

$m$ $2k$ $m/2k$ $2k$ $2k$

$k$

Spodziewam się (zastrzeżenie: sam tego nie próbowałem) w praktyce będzie to prawdopodobnie szybsze i być może łatwiejsze do zakodowania / konserwacji, niż przy użyciu podejścia opartego na drzewie sufiksów.

— Aryabhata
źródło

Potrzebuję tylko wyjaśnienia. Przez „.. rozdziel każdy ciąg długości m na 2k bloków o rozmiarze m / 2k każdy ...”, masz na myśli to, że każdy podciąg długości mw T (o długości n) dzieli się na 2k bloków. Ten skrót można obliczyć w O (n) metodą mieszania ciągłego. Następnie łańcuch wzoru zostanie również podzielony na bloki 2k, a odpowiednie hasze zostaną porównane, z uwzględnieniem niedopasowania bloków k atmost. Jeśli tak, to moglibyśmy potencjalnie odrzucić wszystkie przypadki, w których liczba niezgodności jest większa niż k. Czy zrozumiałem, prawda?

— Paresh

k

$k$

Ω (n k)

$\Omega(nk)$

O (n)

$O(n)$

Podoba mi się to podejście! Jednak to podejście jest ogólnie szybkie, ale obniża się do O (mnk), jeśli liczba dopasowań jest wysoka (O (n) dopasowań). Mając to na uwadze, utrzymałem dwa ciągłe hashe, przy założeniu, że oba nie mogą mieć kolizji dla tego samego wkładu (nie zrobiłem tego matematycznie, ponieważ chciałem zobaczyć prędkość). W ten sposób nie musimy weryfikować dopasowania char-by-char, jeśli oba skróty się zgadzają. Zasadniczo jest to dość szybkie, ale to też jest powolne, jeśli liczba dopasowań jest duża. Z tym i zgodnie ze wskazówkami, dla dużych meczów było wolno.

— Paresh

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$

\sqrt{m}

$\sqrt{m}$

O (n k \sqrt{m})

$O(nk\sqrt{m})$

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$

2 k

$2k$

k + 1

$k+1$

k + c

$k+c$

Ω (n m)

$\Omega(nm)$

\sqrt{m}

$\sqrt{m}$

m / 2 k

$m/2k$