Algorytm optymalizacji drzew decyzyjnych

tło

Binarne drzewo decyzja $T$ jest zakorzenione drzewo gdzie każdy węzeł wewnętrzny (i korzeń) jest oznaczony przez indeks w $j \in \{1,..., n\}$ taki sposób, że żadna ścieżka od korzenia do liścia nie powtarza indeksu, liście są oznaczone wyjściami w $\{A,B\}$ , a każda krawędź jest oznaczona przez $0$ dla lewego dziecka i $1$ dla prawego dziecka. Aby zastosować drzewo do wejścia $x$ :

Zacznij od katalogu głównego
jeśli jesteś przy liściu, wyprowadzasz etykietę liścia $A$ lub $B$ i kończysz
Przeczytaj etykietę bieżącego węzła, jeśli to przejdź do lewego dziecka, a jeśli przejdź do prawego dziecka. $j$ $x_j = 0$ $x_j = 1$
przejdź do kroku (2)

Drzewo jest używane jako sposób oceny funkcji, w szczególności mówimy, że drzewo reprezentuje całkowitą funkcję jeśli dla każdego mamy . Złożoność zapytania drzewa jest jego głębokością, a złożoność zapytania funkcji to głębokość najmniejszego drzewa, które ją reprezentuje. $T$ $f$ $x \in \{0,1\}^n$ $T(x) = f(x)$

Problem

Dane binarne drzewo decyzyjne T generuje binarne drzewo decyzyjne T 'o minimalnej głębokości, tak że T i T' reprezentują tę samą funkcję.

Pytanie

Jaki jest najbardziej znany algorytm? Czy znane są jakieś dolne granice? Co jeśli wiemy, że ? A jeśli wymagamy tylko, aby miała w przybliżeniu minimalną głębokość? $\text{depth}(T') = O(\log \text{depth}(T))$ $T'$

Naiwne podejście

Naiwne podejście jest podana , aby wyliczyć wszystkie rekursywnie binarne drzewa decyzyjne o głębokości podczas testowania, jeśli oceniać na samo jak . Wydaje się, że wymaga to $d = \text{depth}(T)$ $d - 1$ $T$ kroki (przy założeniu, że potrzebakroków, aby sprawdzić, coocenia dla dowolnego). Czy istnieje lepsze podejście? $O(\frac{d 2^n n!}{(n - d)!})$ $d$ $T(x)$ $x$

Motywacja

To pytanie jest motywowane przez poprzednie pytanie dotyczące kompromisu między złożonością zapytania a złożonością czasową . W szczególności celem jest ograniczenie separacji czasowej dla wszystkich funkcji. Możemy stworzyć drzewo z algorytmu czasu optymalnego z czasem wykonania , a następnie chcielibyśmy przekonwertować go na drzewo dla algorytmu optymalnego dla zapytania. Niestety, jeśli (I często $T$ $t$ $T'$ $t \in O(n!/(n - d)!)$ $d \in \Theta(n)$ ) wąskim gardłem jest konwersja. Byłoby miło, gdybyśmy mogli zastąpić przez coś jak . $n!/(n - d)!$ $2^d$

ds.algorithms query-complexity decision-trees

— Artem Kaznatcheev
źródło

Znalezienie optymalnego drzewa decyzyjnego jest NP-zakończone. Nauczono mnie tego w klasach teorii decyzji i eksploracji danych, jednak były one oparte na notatkach i nie znam oryginalnego artykułu, który przedstawił wynik.

— chazisop

@chazisop cool, dzięki. Nie jest dla mnie oczywiste, że znalezienie optymalnego drzewa decyzyjnego jest w NP, ale pomyślę o tym / poszukuję go jeszcze trochę. Czasami znajomość twierdzenia jest w połowie drogi do udowodnienia: D.

— Artem Kaznatcheev

Myślę, że najwcześniejszym odniesieniem do tego jest: Niższe granice list uczenia się i drzew decyzyjnych. (Hancock i in. 1994) cs.uwaterloo.ca/~mli/dl.ps

— Lev Reyzin

Laurent Hyafil i Ronald L. Rivest w Konstruowaniu optymalnych binarnych drzew decyzyjnych udowodnili, że znalezienie optymalnego drzewa decyzyjnego jest problemem NP-zupełnym (NP76 ). odnośnik: tutaj

— antoine,

Mam 3 odpowiedzi, wszystkie dające nieco inne wyniki twardości.

Niech będzie jakąś funkcją. $f: \{0,1\}^n \rightarrow \{0,1\}$

odpowiedź 1

Biorąc pod uwagę, drzewa decyzyjnego obliczeniową i numer, jest NP-trudno powiedzieć, czy istnieje drzewo decyzyjne obliczeniowej wielkości co najwyżej tej liczby. $T$ $f$ $T'$ $f$ ( Zantema and Bodlaender '00 )

Odpowiedź 2

Biorąc pod uwagę drzewo decyzyjne obliczające , NP jest trudne do przybliżenia najmniejszego drzewa decyzyjnego obliczającego do dowolnego stałego współczynnika. $T$ $f$ $f$ ( Sieling '08 )

Odpowiedź 3

Niech będzie wielkość najmniejszego drzewa decyzyjnego obliczeniowej . Biorąc pod uwagę drzewo decyzyjne obliczające , zakładając, że dla niektórych , nie można znaleźć równoważnego drzewa decyzyjnego o rozmiarze dla dowolnego . $s$ $f$ $T$ $f$ $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $T'$ $s^k$ $k \ge 0$

Myślę, że tej silniejszej odpowiedzi (opartej na słabszym założeniu) można uzyskać na podstawie znanych wyników w teorii uczenia się algorytmów Occama dla drzew decyzyjnych za pomocą następującego argumentu:

Czy można znaleźć drzewo decyzyjne zmiennych w czasie , gdzie jest najmniejszym drzewem decyzyjnym zgodnym z przykładami pochodzącymi z rozkładu (model PAC). ( Blum '92 ) $n$ $n^{\log s}$ $s$
Przy założeniu, że przez pewien , nie można dowiedzieć się, PAC WIELKOŚĆ drzewa decyzyjne według rozmiaru drzew decyzyjnych dla każdego . ( Alekhnovich i in. '07 ) $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $s$ $s^k$ $k \ge 0$

Te dwa wyniki wydają się sugerować wynik twardości dla twojego problemu. Z jednej strony (1) możemy znaleźć duże drzewo decyzyjne; Z drugiej strony (2), nie powinny być w stanie zminimalizować je, aby uzyskać równoważną jeden „mały”, o wymiarach , nawet jeśli taka istnieje od wielkości . $s^k$ $s$

— Lew Reyzin
źródło

(Znalazłem twoją odpowiedź z tej odpowiedzi , która została opublikowana niecałą godzinę temu.)

$\:$ Wygląda na to, że „

” można zastąpić „dodatnim

, ponieważ zmniejszenie

zmniejsza prawą stronę pojemnika .

ϵ < 1

$\epsilon < 1$

ϵ

$\epsilon$

ϵ

$\epsilon$

$\:$ Gdzie także w tym dokumencie pokazano 2.?

$\;\;\;\;$

Zobacz punkt 2 w streszczeniu tutaj: researchcher.watson.ibm.com/researcher/files/us-vitaly/…

— Lev Reyzin

(pochodzący z tej samej odpowiedzi co Ricky Demer) czy mógłbyś bardziej szczegółowo opisać, w jaki sposób otrzymujesz „odpowiedź 3” z punktów 1. i 2.? Nie jestem zbyt obeznany z nauką teorii i trudno mi połączyć części ...

— Marc

Ten problem spójności i możliwości uczenia się są ściśle powiązane za pomocą brzytwy Ockhama. Chodzi o to, że jeśli możesz znaleźć spójną funkcję z małego zestawu, możesz odnieść sukces w nauce PAC. Dlatego trudność wyniku uczenia się implikuje wynik „twardości spójności”. Nie jestem pewien, o ile więcej mogę wyjaśnić w komentarzu ...

— Lew Reyzin

O ile rozumiem, algorytm wywołany dla 1. nie działa w czasie

co byłoby konieczne, aby uzyskać sprzeczność z 2. (dokładny wynik w artykule, jeśli poprawnie go otrzymałem mówi, że nie ma algorytmu uczenia się czasu dla drzew decyzyjnych). Więc może być problem z twoją argumentacją.

P o l y (n, s)

$Poly(n,s)$

— Marc