Jak udowodnić, że język nie jest pozbawiony kontekstu?

88

Dowiedzieliśmy się o klasie języków bezkontekstowych . Charakteryzuje się zarówno gramatykami bezkontekstowymi, jak i automatami pushdown, dzięki czemu łatwo jest pokazać, że dany język jest pozbawiony kontekstu. $\mathrm{CFL}$

Jak jednak pokazać coś przeciwnego? Moja TA była nieugięta, że aby to zrobić, musielibyśmy wykazać dla wszystkich gramatyk (lub automatów), że nie potrafią opisać języka, który jest pod ręką. To wydaje się dużym zadaniem!

Czytałem o lemie pompującym, ale wygląda to na bardzo skomplikowane.

— Raphael
źródło

Ntpick: nierozstrzygalne jest pokazanie, czy język jest pozbawiony kontekstu.

— reinierpost

1

@reinierpost Nie rozumiem, jak twój komentarz odnosi się do pytania. Chodzi o udowodnienie rzeczy, a nie podejmowanie decyzji (algorytmicznie).

— Raphael

Po prostu podkreślam, że nie jest łatwo wykazać, że język jest ogólnie pozbawiony kontekstu . Jeśli jest to łatwe dla frafl, musi to wynikać z pewnych specjalnych warunków, które nie obowiązują w ogóle dla języków, takich jak otrzymanie automatu przesuwania opisującego język.

— reinierpost

@reinierpost Ta linia rozumowania wydaje się zakładać, że nierozstrzygalność implikuje (równa się?) trudność do udowodnienia. Zastanawiam się, czy to prawda.

— Raphael

69

Według mojej wiedzy lemat pompujący jest zdecydowanie najprostszą i najczęściej stosowaną techniką. Jeśli jest ci ciężko, wypróbuj najpierw zwykłą wersję , nie jest tak źle. Istnieją inne sposoby dla języków, które są dalekie od kontekstu. Na przykład niezdecydowane języki nie są trywialnie wolne od kontekstu.

To powiedziawszy, interesują mnie również inne techniki niż lemat pompowania, jeśli takie istnieją.

EDYCJA: Oto przykład lematu pompującego: załóżmy, że język jest pozbawiony kontekstu ( jest zbiorem liczb pierwszych). Lemat pompujący ma wiele kwantyfikatorów więc sprawię, że będzie to trochę jak gra: $L=\{ a^k \mid k ∈ P\}$ $P$ $∃/∀$

Lemat pompowania daje $p$
Dajesz słowo języka o długości co najmniej $s$ $p$
Lemat pompujący przepisuje to w następujący sposób: z pewnymi warunkami ( i ) $s=uvxyz$ $|vxy|≤p$ $|vy|≥1$
liczbę całkowitą $n≥0$
Jeśli nie jest w , wygrywasz, nie jest pozbawiony kontekstu. $uv^nxy^nz$ $L$ $L$

W tym konkretnym języku dla dowolny (z oraz jest liczbą pierwszą) rade. Wtedy lemat pompujący daje ci z . Nie obalaj kontekstowości, musisz znaleźć takie, żenie jest liczbą pierwszą. $s$ $a^k$ $k≥p$ $k$ $uvxyz$ $|vy|≥1$ $n$ $|uv^nxy^nz|$

| u v^{n} x y^{n} z | = | s | + (n - 1) | v y | = k + (n - 1) | v y |

$|uv^nxy^nz|=|s|+(n-1)|vy|=k+(n-1)|vy|$

A następnie zrobi: nie jest liczbą pierwszą, tak . Nie można zastosować lematu pompującego, więc nie jest pozbawiony kontekstu. $n=k+1$ $k+k|vy|=k(1+|vy|)$ $uv^nxy^nz\not\in L$ $L$

Drugim przykładem jest język . Musimy (oczywiście) wybrać ciąg znaków i pokazać, że nie ma możliwości podzielenia go na te pięć części i że każdy wyprowadzony ciąg znaków pozostaje w języku. $\{ww \mid w \in \{a,b\}^{\ast}\}$

Ciąg jest odpowiednim wyborem dla tego dowodu. Teraz musimy tylko sprawdzić, gdzie mogą znajdować się i . Najważniejsze jest to, że lub musi mieć coś w sobie (być może jedno i drugie) i że zarówno i (i ) są zawarte w podciągu długości - więc nie mogą być zbyt daleko od siebie. $s=a^{p}b^{p}a^{p}b^{p}$ $v$ $y$ $v$ $y$ $v$ $y$ $x$ $p$

Ten ciąg ma wiele możliwości, gdzie mogą znajdować się i , ale okazuje się, że kilka przypadków faktycznie wygląda całkiem podobnie. $v$ $y$

v y ∈ b ∗ a b | v y | = k ≤ p lub . Tak więc oba są zawarte w jednej z sekcji zakreślających s lub s. Jest to stosunkowo łatwy argument, ponieważ nie ma znaczenia, w którym są. Załóżmy, że .
- Jeśli są w pierwszym odcinku s, a następnie kiedy pompa, pierwsza połowa nowego łańcucha jest , a drugi jest . Oczywiście nie ma to formy . $a$ $a^{p+k}b^{p-k/2}$ $b^{k/2}a^{p}b^{p}$ $ww$
- Argument dla każdej z trzech innych sekcji działa prawie tak samo, tylko tam, gdzie i kończą się na indeksach. $k$ $k/2$
rozciąga się na dwie sekcje. W tym przypadku pompowania w dół jest twoim przyjacielem. Znów jest kilka miejsc, w których może się to zdarzyć (dokładnie 3), ale zrobię tylko jedno ilustracyjne, a reszta powinna być łatwa do zrozumienia.
- Załóżmy, że leży na granicy pomiędzy pierwszym sekcji i pierwszym sekcji. Niech (nie ma znaczenia dokładnie, gdzie si są w i , ale wiemy, że są w porządku). Następnie, gdy odpompowujemy (tj. Przypadek ), otrzymujemy nowy ciąg , a następnie, jeśli mogą być podzielone na , środek musi być gdzieś w drugim części, a więc pierwsza połowa $vxy$ $a$ $b$ $vy = a^{k_{1}}b^{k_{2}}$ $a$ $b$ $v$ $y$ $i=0$ $s'=a^{p-k_{1}}b^{p-k_{2}}a^{p}b^{p}$ $s'$ $ww$ $a$ $a^{p-k_{1}}b^{p-k_{2}}a^{(k_{1}+k_{2})/2}$ , a druga połowa to . Oczywiście nie są to te same ciągi, więc nie możemy tam wstawić i . $a^{p-(k_{1}+k_{2})/2}b^{p}$ $v$ $y$

Pozostałe przypadki powinny być stamtąd dość przejrzyste - są to te same pomysły, po prostu umieszczając i w pozostałych 3 miejscach w pierwszej instancji i 2 miejsca w drugiej instancji. We wszystkich przypadkach można go jednak pompować w taki sposób, że porządkowanie jest wyraźnie pomieszane po podzieleniu łańcucha na pół. $v$ $y$

— jmad
źródło

tak naprawdę gra Kozen jest na to sposobem.

— Sokrates

45

Lemma Ogdena

Lemma (Ogden). Niech będzie językiem bezkontekstowym. Następnie istnieje stała taka, że dla każdego i dowolnego sposobu oznaczania lub większej liczby pozycji (symboli) jako „pozycji wyróżniających”, wówczas można zapisać jako , tak że $L$ $N$ $z\in L$ $N$ $z$ $z$ $z=uvwxy$

$vx$ ma co najmniej jedną wyróżnioną pozycję.

$vwx$ ma najwyżej wyróżnionych pozycji. $N$

Dla wszystkich , . $i\geq 0$ $uv^iwx^iy\in L$

Przykład. Niech . Załóżmy, że jest pozbawione kontekstu i niech będzie stałą podaną przez lemat Ogdena. Niech (Który należy do ) i załóżmy, że zaznaczamy jako wyróżnione wszystkie pozycje symbolu (tj. Pierwsze pozycji ) . Niech będzie rozkładem spełniającym warunki z lematu Ogdena. $L=\{a^ib^jc^k:i\neq j,j\neq k,i\neq k\}$ $L$ $N$ $z=a^Nb^{N+N!}c^{N+2N!}$ $L$ $a$ $N$ $z$ $z=uvwxy$ $z$

Jeśli lub zawierają różne symbole, to , ponieważ będą symbole w niewłaściwej kolejności. $v$ $x$ $uv^2wx^2y\notin L$
Przynajmniej jeden z i może zawierać tylko symbole , ponieważ tylko „s wyodrębniono. Zatem jeśli lub , to . Niech. Następnie , co oznacza, że dzieli. Niech . Następnie powinien należeć do . Jednak . Ponieważ ma dokładnie symbole , to $v$ $x$ $a$ $a$ $x\in L(b^*)$ $x\in L(c^*)$ $v\in L(A^+)$ $p=|v|$ $1\leq p\leq N$ $p$ $N!$ $q=N!/p$ $z'=uv^{2q+1}wx^{2q+1}y$ $L$ $v^{2q+1}=a^{2pq+p}=a^{2N!+p}$ $uwy$ $N-p$ $a$ $z'$ ma symbole . Ale zarówno jak i nie mają , więc ma również symbole , co oznacza , a to przeczy lematowi Ogdena. Podobna sprzeczność występuje, jeśli lub . Stwierdzamy, że nie jest kontekstowe. $2N!+N$ $a$ $v$ $x$ $c$ $z'$ $2N!+N$ $c$ $z'\notin L$ $x\in L(A^+)$ $x\in L(c^*)$ $L$

Ćwiczenie. Używając Lemmy Ogdena, pokaż, że nie jest pozbawiony kontekstu. $L=\{a^ib^jc^kd^{\ell}:i=0\text{ or }j=k=\ell\}$

Pompowanie Lemmy

Jest to szczególny przypadek lematu Ogdena, w którym rozróżnia się wszystkie pozycje.

Lemat. Niech będzie językiem bezkontekstowym. Następnie istnieje stała taka, że dla każdego , można zapisać jako , tak że $L$ $N$ $z\in L$ $z$ $z=uvwxy$

$|vx|>0$ .

$|vwx|\leq N$ .

Dla wszystkich , . $i\geq 0$ $uv^iwx^iy\in L$

Twierdzenie Parikha

To jest nawet bardziej techniczne niż Lemma Ogdena.

Definicja. Niech . Definiujemy przez gdzie jest liczbą wystąpień in . $\Sigma=\{a_1,\ldots,a_n\}$ $\Psi_{\Sigma}:\Sigma^*\to\mathbb{N}^n$

Ψ_{Σ} (w) = (m_{1}, \dots, m_{n}),

$\Psi_{\Sigma}(w)=(m_1,\ldots,m_n),$

m_{i}

$m_i$

a_{i}

$a_i$

w

$w$

Definicja. Podzbiór z jest nazywany liniowym, jeśli można go zapisać: $S$ $\mathbb{N}^n$

S = {u_{0} + \sum_{1 \leq i \leq k} a_{i} u_{i} : for some set of u_{i} \in N^{n} and a_{i} \in N}

$S = \{\mathbf{u_0} + \sum_{1 \le i \le k} a_i \mathbf{u_i} : \text{ for some set of $\mathbf{u_i} \in \mathbb{N}^n$ and $a_i \in \mathbb{N}$}\}$

Definicja. Podzbiór o nazywa półliniowych , jeżeli jest to związek skończonego zbioru zestawów liniowych. $S$ $\mathbb{N}^n$

Twierdzenie (Parikh). Niech będzie językiem nad . Jeśli jest pozbawiony kontekstu, to jest półliniowe. $L$ $\Sigma$ $L$
$Ψ_{Σ} [L] = {Ψ_{Σ} (w) : w \in L}$ $\Psi_{\Sigma}[L]=\{\Psi_{\Sigma}(w):w\in L\}$

Ćwiczenie. Korzystając z twierdzenia Parikha, pokaż, że nie jest pozbawione kontekstu. $L=\{0^m1^n:m>n\text{ or }(m\text{ is prime and }m\leq n)\}$

Ćwiczenie. Korzystając z twierdzenia Parikha, pokaż, że każdy bezkontekstowy język nad pojedynczym alfabetem jest również regularny.

— Janoma
źródło

1

Zaakceptowałem odpowiedź jmada, ponieważ pytanie wyraźnie wymienia Pumping Lemma. Bardzo jednak doceniam twoją odpowiedź; zgromadzenie wszystkich głównych metod tutaj jest świetną rzeczą.

— Raphael

1

W porządku, ale zauważ, że pompujący lemat jest szczególnym przypadkiem lematu Ogdena ;-)

— Janoma

Oczywiście. Jednak większość ludzi najpierw wypróbuje PL; wielu nawet nie zna OL.

— Raphael

1

Twierdzenie Ginsburga i Spaniera, oparte na twierdzeniu Parikha, zapewnia niezbędny i wystarczający warunek dla kontekstu-płynności w ograniczonej sprawie. math.stackexchange.com/a/122472

— sdcvvc

Czy możesz zdefiniować „wyróżnione pozycje” w kontekście innych operacji? A przynajmniej nieoficjalnie? Znajduję definicję OL skopiowaną dosłownie w wielu różnych miejscach, ale jak dotąd żadna z nich nie chciała wyjaśnić, co to znaczy.

— wvxvw

34

Właściwości zamknięcia

Raz masz małą kolekcję zakaz języków bezkontekstowych często można użyć właściwości zamknięcia z tak: $\mathrm{CFL}$

Załóżmy . Następnie, poprzez właściwość zamknięcia X (wraz z Y), . Jest to sprzeczne z który wiemy, że trzymamy, dlatego . $L \in \mathrm{CFL}$ $L' \in \mathrm{CFL}$ $L' \notin \mathrm{CFL}$ $L \notin \mathrm{CFL}$

Jest to często krótsze (i często mniej podatne na błędy) niż użycie jednego z innych wyników, które wykorzystują mniejszą wiedzę. Jest to również ogólna koncepcja, którą można zastosować do wszystkich rodzajów obiektów.

Przykład 1: Przecięcie ze zwykłymi językami

Zwracamy uwagę na język regularny określony przez dowolne wyrażenie regularne . $\mathcal L(e)$ $e$

Niech . Tak jak $L = \{w \mid w \in \{a,b,c\}^*, |w|_a = |w|_b = |w|_c\}$

$\qquad \displaystyle L \cap \mathcal{L}(a^*b^*c^*) = \{a^nb^nc^n \mid n \in \mathbb{N}\} \notin \mathrm{CFL}$

i jest zamknięty pod skrzyżowaniem ze zwykłymi językami, . $\mathrm{CFL}$ $L \notin \mathrm{CFL}$

Przykład 2: (odwrotny) homomorfizm

Niech . Z homomorfizmem $L = \{(ab)^{2n}c^md^{2n-m}(aba)^{n} \mid m,n \in \mathbb{N}\}$

$\qquad \displaystyle \phi(x) = \begin{cases} a &x=a \\ \varepsilon &x=b \\ b &x=c \lor x=d \end{cases}$

mamy $\phi(L) = \{a^{2n}b^{2n}a^{2n} \mid n \in \mathbb{N}\}.$

Teraz z

$\qquad \displaystyle \psi(x) = \begin{cases} aa &x=a \lor x=c \\ bb &x=b \end{cases}\quad\text{and}\quad L_1 = \{x^nb^ny^n \mid x,y \in \{a,c\}\wedge n \in \mathbb{N}\},$

otrzymujemy . $L_1 = \psi^{-1}(\phi(L)))$

Wreszcie, przecinając ze zwykłym językiem otrzymujemy język . $L_1$ $L_2 = \mathcal L(a^*b^*c^*)$ $L_3 = \{a^n b^n c^n \mid n \in \mathbb{N}\}$

W sumie mamy . $L_3 = L_2 \cap \psi^{-1}(\phi(L))$

Załóżmy teraz, że był pozbawiony kontekstu. Następnie, ponieważ jest zamknięty przeciwko homomorfizmowi, homomorfizmowi odwrotnemu i przecinaniu się z regularnymi zbiorami, jest kontekstu. Ale wiemy (za pomocą Pumping Lemma, jeśli to konieczne), że nie jest kontekstu, więc jest to sprzeczność; pokazaliśmy, że . $L$ $\mathrm{CFL}$ $L_3$ $L_3$ $L \notin \mathrm{CFL}$

Interchange Lemma

Interchange Lemma [1] proponuje niezbędny warunek kontekstowy chudości, który jest jeszcze silniejszy niż lemat ogdena . Na przykład można tego użyć

$\qquad \{xyyz \mid x,y,z \in \{a,b,c\}^+\} \notin \mathrm{CFL}$

który jest odporny na wiele innych metod. Oto lemat:

Niech . Następnie istnieje stała taka, że dla dowolnej liczby całkowitej , dowolnego zestawu i dowolnej liczby całkowitej przy istnieje ciągi znaków z $L \in \mathrm{CFL}$ $c_L$ $n\geq 2$ $Q_n \subseteq L_n = L \cap \Sigma^n$ $m$ $n \geq m \geq 2$ $k \geq \frac{|Q_n|}{c_L n^2}$ $z_i \in Q_n$

$z_i = w_ix_iy_i$ dla , $i=1,\dots,k$

$|w_1| = |w_2| = \dots = |w_k|$ ,

$|y_1| = |y_2| = \dots = |y_k|$ ,

$m \geq |x_1| = |x_2| = \dots = |x_k| > \frac{m}{2}$ i

$w_ix_jy_i \in L_n$ dla wszystkich . $(i,j) \in [1..k]^2$

Zastosowanie go oznacza znalezienie i taki sposób, że 1.-4. przytrzymaj, ale 5. jest naruszone. Przykład zastosowania podany w oryginalnym artykule jest bardzo szczegółowy i dlatego został pominięty tutaj. $n,m$ $Q_n$

W tej chwili nie mam ogólnodostępnej referencji, a powyższe sformułowanie pochodzi z preprint [1] z 1981 r. Doceniam pomoc w wyszukiwaniu lepszych referencji. Wygląda na to, że ta sama właściwość została (ponownie) odkryta niedawno [2].

Inne niezbędne warunki

Boonyavatana i Slutzki [3] badają kilka warunków podobnych do lemie pompowania i wymiany.

„Interchange Lemma” dla języków bezkontekstowych W. Ogdena, RJ Rossa i K. Winklmanna (1985)
Wymiana lematów na języki zwykłe i bezkontekstowe T. Yamakami (2008)
Lematy wymiany lub pompowania (DI) dla języków bezkontekstowych R. Boonyavatana i G. Slutzki (1988)

— Raphael
źródło

Istnieją ładne właściwości zamknięcia bogatych podklas CFL, które można wykorzystać do tego samego efektu.

— Raphael

19

Nie ma ogólnej metody, ponieważ zestaw języków bezkontekstowych nie jest częściowo rozstrzygalny (akare). Gdyby istniała ogólna metoda, moglibyśmy użyć jej, aby częściowo zdecydować o tym zestawie.

Sytuacja jest jeszcze gorsza, ponieważ biorąc pod uwagę dwa świetlówki kompaktowe, nie można zdecydować, czy ich przecięcie jest również świetlówką kompaktową.

Odniesienia: Hopcroft i Ullman, „Wprowadzenie do teorii automatów, języków i obliczeń”, 1979.

— Kaveh
źródło

2

Ciekawym (ale prawdopodobnie bardziej zaawansowanym i otwartym pytaniem) byłoby kategoryzowanie podklasy nie-CFL, które można udowodnić, że nie są CFL przy użyciu określonej metody.

— Kaveh

Nie szukam metody obliczalnej , ale techniki sprawdzania pisaków i papieru. To ostatnie niekoniecznie oznacza pierwsze.

— Raphael

13

Silniejszą wersją warunku Ogdena ( OC ) jest

Stan Bader-Moury (BMC)

Język spełnia BMC, jeśli istnieje stała taka, że jeśli i oznaczamy w nim pozycje „wyróżniające” pozycje i pozycje „wykluczone”, , wówczas możemy napisać tak aby: $L\subseteq \Sigma^*$ $n$ $z \in L$ $d(z)$ $e(z)$ $d(z) > n^{e(z)+1}$ $z = uvwxy$

$d(vx) \geq 1$ i $e(vx) =0$

$d(vwx) \leq n^{e(vwx)+1}$ i

dla każdego , jest . $i \geq 0$ $uv^iwx^iy$ $L$

Mówimy, że język jeśli spełnia warunek Bader-Moury. $L \in BMC(\Sigma)$ $L$

Mamy , więc BMC jest ściśle silniejszy niż OC. $CFL(\Sigma) \subset BMC(\Sigma) \subset OC(\Sigma)$

Odnośnik: Bader, C., Moura, A., A Generalization of Ogden's Lemma. JACM 29, nr 2, (1982), 404–407

— Vor
źródło

2

Dlaczego po prostu nie przejść całą drogę do Dömösi and Kudlek za uogólnienie dx.doi.org/10.1007/3-540-48321-7_18 ...

— András Salamon

@ AndrásSalamon: Nie wiedziałem o tym! :-) ... być może możesz opublikować to jako nową odpowiedź, mówiąc, że OC, BMC, PC są tego szczególnymi przypadkami (wszystkie wyróżnione lub brak wykluczonych pozycji).

— Vor

możesz go opublikować, nie masz teraz czasu.

— András Salamon

Ta odpowiedź skorzystałaby na przykładzie.

— Raphael