Minimalny rozmiar zawarcia DAG w nowy DAG

Mamy DAG. Mamy funkcję na węzłach (luźno mówiąc, numerujemy węzły). Chcielibyśmy utworzyć nowy ukierunkowany wykres z tymi zasadami: $F\colon V\to \mathbb N$

Tylko węzły o tym samym numerze można zawrzeć w tym samym nowym węźle. . (Jednak .) $F(x) \neq F(y) \Rightarrow x' \neq y'$ $x' \neq y'\nRightarrow F(x) \neq F(y)$
Dodajemy wszystkie stare krawędzie między nowymi węzłami: . $(x,y) \in E \land x' \neq y' \iff (x',y')\in E'$
Ten nowy wykres jest nadal DAG.

Jaka jest minimalna? Co to jest algorytm tworzący nowy minimalny wykres? $|V'|$

— chx
źródło

Problemem decyzyjnym wydaje się więc: biorąc pod uwagę DAG w kolorze wierzchołka i liczbę całkowitą , zdecyduj, czy istnieje DAG z co najwyżej wierzchołkami utworzonymi przez kurczenie się wierzchołków tego samego koloru.

k

$k$

k

$k$

— András Salamon,

Jeśli kontraktujesz dwa połączone węzły, czy otrzymujesz zakazaną pętlę własną?

— Yuval Filmus,

Nie. Przeczytaj 2. ponownie: dodajemy krawędź tylko wtedy, gdy dwa węzły po skurczu są nadal różne. Jeśli dwa węzły zostaną skurczone w jeden, nie dodamy krawędzi.

— chx

@chx Czy pytasz o „minimalny” czy „minimalny”?

— Realz Slaw

czy możesz podać motywację / bkg?

— vzn

Odpowiedzi:

Jednym podejściem do rozwiązania tego problemu byłoby zastosowanie programowania liniowego liczb całkowitych (ILP). Zajmijmy się wersją decyzyjną problemu: biorąc pod uwagę , czy istnieje sposób na zawarcie wierzchołków tego samego koloru, aby uzyskać DAG o wielkości ? $k$ $\le k$

Można to wyrazić jako instancję ILP przy użyciu standardowych technik. Kolor oryginalnego wykresu jest podany dla każdego wierzchołka. Sugeruję, aby oznaczyć każdy wierzchołek etykietą w ; wszystkie wierzchołki z tą samą etykietą i tym samym kolorem zostaną skurczone. Problemem decyzyjnym staje się zatem: czy istnieje oznakowanie, które powoduje, że skurczenie wszystkich wierzchołków tego samego koloru w ten sam sposób daje DAG? $\{1,2,\dots,k\}$

Aby wyrazić to jako całkowity program liniowy, wprowadź zmienną całkowitą dla każdego wierzchołka , aby przedstawić etykietę na wierzchołku . Dodaj nierówność . $\ell_v$ $v$ $v$ $1 \le \ell_v \le k$

Następnym krokiem jest wyrażenie wymogu, że zakontraktowany wykres musi być DAG. Należy zauważyć, że jeśli jest znakowanie postaci wymienionych powyżej, bez utraty ogólności istnieje taki oznakowania, gdzie etykiety indukowania topologiczne sortuje umownej wykresie (czyli jeżeli poprzedza umownej wykresu, a „S etykiety jest mniejszy, niż „s etykiecie). Tak więc, dla każdej krawędzi w oryginalnym wykresie dodamy ograniczenie, że albo i mają taką samą etykietę i tego samego koloru, albo „s etykieta jest mniejsza niż ” s etykietą. W szczególności dla każdej krawędzi $v$ $w$ $v$ $w$ $v\to w$ $v$ $w$ $v$ $w$ w początkowym wykresu gdzie mają ten sam kolor, dodać nierówność . Dla każdej krawędzi gdzie mają różne kolory, dodaj nierówność . $v\to w$ $v,w$ $\ell_v \le \ell_w$ $v \to w$ $v,w$ $\ell_v < \ell_w$

Sprawdź teraz, czy istnieje jakieś realne rozwiązanie tego programu liczb całkowitych. Możliwe będzie rozwiązanie, jeśli i tylko wtedy, gdy etykietowanie będzie miało pożądaną formę (tj. Skurczenie wszystkich wierzchołków tego samego koloru o tym samym kolorze daje DAG). Innymi słowy, możliwe będzie rozwiązanie tylko i wyłącznie wtedy, gdy istnieje sposób na zawężenie oryginalnego wykresu do DAG o wielkości . Możemy użyć dowolnego liczbowego solvera do programowania liniowego; jeśli solver ILP daje nam odpowiedź, mamy odpowiedź na pierwotny problem decyzyjny. $\le k$

Oczywiście nie można tego zagwarantować w czasie wielomianowym. Nie ma gwarancji. Jednak solwery ILP są całkiem niezłe. Spodziewałbym się, że dla rozsądnego wykresu masz spore szanse, że solver ILP może rozwiązać ten problem w rozsądnym czasie.

Możliwe jest również zakodowanie tego jako instancji SAT i użycie solvera SAT. Nie wiem, czy to byłoby bardziej skuteczne. Prawdopodobnie łatwiej jest myśleć o wersji ILP.

(Mam nadzieję, że to prawda. Nie sprawdziłem dokładnie każdego szczegółu, więc proszę dokładnie sprawdzić moje rozumowanie! Mam nadzieję, że gdzieś nie poszedłem źle).

Aktualizacja (10/21): Wygląda na to, że ILP tego formularza można rozwiązać w czasie liniowym, przetwarzając DAG w topologicznie posortowanej kolejności i śledząc dolną granicę etykiety dla każdego wierzchołka. To mnie podejrzewa o moje rozwiązanie: czy popełniłem gdzieś błąd?

— DW
źródło

Dzięki za szczegółową odpowiedź! Dostaję ograniczenia i wyglądają rozsądnie. Jednakże, chociaż nie jestem dobrze zaznajomiony z ILP, myślałem, że programowanie całkowite wymaga funkcji, którą chciałeś zmaksymalizować (lub zminimalizować) i nigdzie tego nie widzę. Sprawdziłem tylko w Wikipedii, więc mogę się mylić.

— chx

@chx, używam ILP do testowania wykonalności ograniczeń. Można tego dokonać, prosząc solver ILP o maksymalizację dowolnej funkcji celu, którą lubisz (np. Maksymalizację 0), a następnie zignorowanie wartości funkcji celu i tylko sprawdzenie, czy ILP jest wykonalna, czy nie. Albo solver ILP odpowiada „Nieosiągalny” (co oznacza, że nie ma zakontraktowanego DAG o wielkości

) lub odpowiada „Wykonalny” i zapewnia najlepszą wartość funkcji celu, jaką może znaleźć; w takim przypadku ignorujesz wartość funkcji celu (i wiesz, że istnieje DAG o wielkości

\leq k

$\le k$

\leq k

$\le k$

— DW

Zobacz np. Engineering.purdue.edu/~engelb/abe565/… („Chcę tylko wiedzieć, czy istnieje wykonalne rozwiązanie .”)

— DW

Jeśli chodzi o twoje liniowe rozwiązanie czasowe; Nie przetrawiłem twojego sformułowania ILP, więc nie mogę go ocenić, ale jestem prawie pewien, że mogę udowodnić, że problem jest trudny do NP, co uczyniłoby liniowe rozwiązanie czasowe całkiem przydatne: P. Wkrótce to opublikuję.

— Realz Slaw

@RealzSlaw, dziękuję! W takim razie mocno podejrzewam, że mogłem gdzieś się pomylić (choć nie jestem jeszcze pewien, gdzie jeszcze).

— DW

UWAGA: AFAICT, DW znalazł dziurę w tej redukcji i jest ona błędna (patrz komentarze). Trzymanie go tutaj ze względów historycznych.

Wprowadzenie : najpierw zredukuję problem Monotone 3SAT do naszego problemu. Chociaż problem Monotone 3SAT jest trywialnie satysfakcjonujący, nasz problem może dodatkowo rozwiązać problem minimalnej prawdziwej Monotone 3SAT , który jest trudny dla NP; dlatego ten problem jest trudny dla NP.

Redukcja z Monotone 3SAT do naszego problemu

Mamy monotoniczną formułę logiczną wyrażoną jako ciąg zmiennych i ciąg klauzul. CNF ma postać taką, że: $\Phi = (\mathcal V,\mathcal C)$

\forall_{({do}_{ja} \in do)} {{do}_{ja} = (x_{jot} \lor x_{k} \lor x_{l}) |}_{(x_{jot}, x_{k}, x_{l} \in V.)}

$\forall_{\left(c_i \in \mathcal C\right)} ~ \left.c_i=\left(x_j \vee x_k \vee x_l\right) \vphantom{\LARGE | } \right|_{\left(x_j,x_k,x_l \in \mathcal V\right)}$

{⋀_{ja = 1}^{n} {do}_{ja} |}_{\binom{{do}_{ja} \in do,}{n = | do |}} .

$\left.{\Large{\bigwedge}}_{i=1}^{n}{c_i}\right|_{\genfrac{}{}{0}{}{c_i\in \mathcal C,}{n=\left|\mathcal C\right|}}.$

Konwersja

Budujemy wykres, . Każdy wierzchołek w ma etykietę; wierzchołki z tą samą etykietą kwalifikują się do skurczu. $G'=V',E'$ $G'$

Najpierw konstruujemy wykres w następujący sposób: dla każdego tworzymy dwa węzły, każdy oznaczony oraz skierowaną krawędź od jednego do drugiego (kliknij obrazy, aby wyświetlić w wysokiej rozdzielczości). $x_i \in \mathcal V$ $x_i$

Te węzły mogą oczywiście zostać zakontraktowane, ponieważ mają tę samą etykietę. Rozważymy zmienne / węzły, które zostały zakontraktowane, jako wycenione jako fałszywe, a te, które nie są traktowane jako wycenione jako prawdziwe :

$V'$ $2\cdot \left|\mathcal V\right|$ $c_i \in \mathcal C, ~ \left.c_i = (x_j \vee x_k \vee x_l) \right|_{x_j,x_k,x_l \in \mathcal V}$ $c_i$

^{^{$c_i$ $1$ $c_i$}}

$2\cdot \left|\mathcal V\right| + |\mathcal C|$

$x_i$ $x_j$ $x_k$ $c_i \rightarrow c_i$

Oto kolejna wizualizacja, rozwijająca ograniczenie klauzuli:

Zatem każde ograniczenie klauzuli wymaga, aby co najmniej jedna ze zmiennych w nim zawartych pozostała niezakłócona; ponieważ niekontraktowane węzły są wyceniane jako prawda, wymaga to, aby jedna ze zmiennych była prawdziwa; dokładnie to, czego wymaga Monotone SAT dla swoich klauzul.

Redukcja od minimum True Monotone 3SAT

Monotone 3SAT jest banalnie satysfakcjonujący; możesz po prostu ustawić wszystkie zmienne na true.

Ponieważ jednak naszym problemem minimalizacji DAG jest znalezienie największego skurczu, przekłada się to na znalezienie satysfakcjonującego przypisania, które wytwarza najbardziej fałszywe zmienne w naszym CNF; co jest równoznaczne ze znalezieniem minimalnych prawdziwych zmiennych. Ten problem jest czasami nazywany minimalnym True Monotone 3SAT lub tutaj (jako problem optymalizacji lub problem decyzyjny) lub k-True Monotone 2SAT (jako słabszy problem decyzyjny); oba trudne problemy NP. Zatem nasz problem jest trudny NP.

Bibliografia:

Źródła wykresów:

— Realz Slaw
źródło

łał. wtedy rozwiązanie DW musi być złe (lub udowodniliśmy NP = P, w co przynajmniej wątpię: P) - ale gdzie?

— chx

(x_{1} \lor x_{2} \lor x_{6}) \land (x_{1} \lor x_{4} \lor x_{5}) \land (x_{3} \lor x_{4} \lor x_{6})

$(x_1 \lor x_2 \lor x_6) \land (x_1 \lor x_4 \lor x_5) \land (x_3 \lor x_4 \lor x_6)$

x_{1} = x_{4} = x_{6} = False

$x_1=x_4=x_6=\text{False}$

x_{2} = x_{3} = x_{5} = True

$x_2=x_3=x_5=\text{True}$

c_{1} \to x_{1} \to x_{4} \to x_{6} \to c_{1}

$c_1 \to x_1 \to x_4 \to x_6 \to c_1$

@DW Miło też z tobą porozmawiać: D i powodzenia, jeśli mamy rację, możemy mieć P = NP w twojej odpowiedzi! / jk

— Realz Slaw

(x_{1}, x_{3})

$\left(x_1, x_3\right)$

@RealzSlaw, obawiam się, że jeszcze nie przestrzegam ... Nie widzę powodu, dla którego moja formuła musiałaby zostać przekształcona. Wierzę, że jest to już instancja minimum True Monotone 3SAT. Ale pozwól mi wznieść się na wyższy poziom. Mówiąc szerzej, widzę proponowaną redukcję, ale nie widzę żadnego argumentu, że redukcja jest poprawna - tego brakuje. Aby redukcja była poprawna, musi mapować instancje TAK na instancje TAK i NIE na instancje NIE. Podejrzewam, że jeśli spróbujesz napisać dowód poprawności swojej redukcji, napotkasz problem, gdy weźmiesz pod uwagę formułę, którą podałem.

— DW

Przy każdej zamianie (z wyjątkiem bezpośrednich zamian rodzic-dziecko) dodajesz nowe relacje przodek-potomek, które sprawiają, że ustalenie, który z nich jest tego wart w perspektywie długoterminowej, nie jest łatwe. Dlatego prosty chciwy algorytm zawiedzie w ogólnym przypadku. Jeśli jednak zastosujesz podejście z użyciem siły brutalnej, możesz określić najmniejszy wykres:

Python-ish (nie testowany):

def play((V,E),F,sequence=[]):
  """
  (V,E) -- a dag.
  V     -- a set of vertices.
  E     -- a set of directed-edge-tuples.
  F     -- a function that takes a vertex, returns an integer.
  sequence -- the sequence of moved taken so far; starts with/defaults to
              an empty list, will contain tuples of the form (x,y)
              where x is removed and replaced with y.

  Returns the best recursively found solution.
  """

  #find all the integer values in the graph, remember which
  # values correspond to what vertices. Of the form {integer => {vertices}}.
  n2v = {}
  for x in V:
    n = F(x)

    #for each integer, make sure you have a set to put the vertices in.
    if n not in n2v:
      n2v[n] = set()

    #for each integer, add the vertex to the equivalent set.
    n2v[n].add(v)

  #record the best sequence/solution. You start with the current sequence,
  # and see if you can obtain anything better.
  best_solution = list(sequence)

  #Now you will try to combine a single pair of vertices, obtain a new
  # graph and then recursively play the game again from that graph. 

  #for each integer and equivalent set of vertices,
  for n,vset in n2v.iteritems():

    #pick a pair of vertices
    for x in vset:
      for y in vset:

        #no point if they are the same.
        if x == y:
          continue

        #If there is a path from x => y or y => x, then you will be
        # introducing a cycle, breaking a rule. So in that case, disregard
        # this pair.
        #However, the exception is when one is a direct child of the other;
        # in that case you can safely combine the vertices.
        if pathtest((V,E),x,y) and (x,y) not in E and (x,y) not in E:
          continue

        #combine the vertices (function is defined below), discard x,
        # replace it with y, obtain the new graph, (V',E').
        Vp,Ep = combine_vertex((V,E),x,y))

        #record the sequence for this move.
        sequencep = list(sequence) + [(x,y)]

        #recurse and play the game from this new graph.
        solution = play(Vp,Ep,F,sequencep)

        #if the returned solution is better than the current best,
        if len(solution) > len(best_solution):
          #record the new best solution
          best_solution = solution
  #return the best recorded solution
  return best_solution


def combine_vertex((V0,E0),x,y):
  """
  (V0,E0)   -- an initial digraph.
  V0        -- a set of vertices.
  E0        -- a set of directed-edge-tuples.
  x         -- vertex to discard.
  y         -- vertex to replace it with.

  returns a new digraph replacing all relationships to and from x to relate
   to y instead, and removing x from the graph entirely.
  """

  #the final vertex set will have everything except x
  V = set(V0)
  V.discard(x)

  #now you construct the edge set.
  E = set()

  #for every edge,
  for (u0,v0) in E0:
    #recreate the edge in the new graph, but replace any occurence
    # of x.  
    u,v = u0,v0
    #if x is in the edge: replace it
    if u == x:
      u = y
    if v == x:
      v == y

    #sometimes u=v=y and can now be pointing to itself, don't add that
    # edge
    if u == v:
      continue

    #add the new/replaced edge into the edge-set.
    E.add( (u,v) )
  return (V,E)

Nie jestem pewien, czy to naprawdę trudny problem, ale ręczna gra z niektórymi wykresami wydaje się bardzo kombinatoryczna. Jestem ciekawy, czy coś trudnego można zredukować do tego problemu, czy też istnieje algorytm o lepszym czasie działania.

— Realz Slaw
źródło

Też jestem ciekawy :)

— chx,