Grupowanie połączonych linii w PostGIS?

Mam tabelę ulic, którą wybrałem na podstawie zestawu atrybutów (powiedzmy, że to speed_limit < 25). Istnieją grupy ulic, które są lokalnie przylegające; Chciałbym pogrupować te zestawy połączonych linii w GeometryCollections. Na poniższym obrazku byłyby dwa GeometryCollections: jeden z czerwonymi liniami i jeden z niebieskimi liniami.

wprowadź opis zdjęcia tutaj

Próbowałem uruchomić kilka zapytań „rozpuść, deagreguj” w następujący sposób:

SELECT (ST_Dump(st_union)).geom
FROM 
    (SELECT ST_Union(geom) FROM roads) sq

Ze wszystkim, co próbowałem, albo kończy się na jednej operacji ( ST_Union) albo mojej oryginalnej geometrii ( ST_Dumpz ST_Union).

Może można to zrobić za pomocą jakiejś WITH RECURSIVEmagii?

— dbaston
źródło

Coś nie wygląda dobrze z „(ST_Dump (st_union)). Geom”

— Martin F

Ponieważ nie używał aliasu ST_Union (geom), nazwa nowej geom odziedziczyła nazwę funkcji, aby stać się st_union. Dlatego wygląda to trochę śmiesznie

— LR1234567,

Odpowiedzi:

Tak na przykład. Oto prosty stół z dwoma połączonymi grupami krawędzi:

drop table lines;
create table lines ( id integer primary key, geom geometry(linestring) );
insert into lines (id, geom) values ( 1, 'LINESTRING(0 0, 0 1)');
insert into lines (id, geom) values ( 2, 'LINESTRING(0 1, 1 1)');
insert into lines (id, geom) values ( 3, 'LINESTRING(1 1, 1 2)');
insert into lines (id, geom) values ( 4, 'LINESTRING(1 2, 2 2)');
insert into lines (id, geom) values ( 11, 'LINESTRING(10 10, 10 11)');
insert into lines (id, geom) values ( 12, 'LINESTRING(10 11, 11 11)');
insert into lines (id, geom) values ( 13, 'LINESTRING(11 11, 11 12)');
insert into lines (id, geom) values ( 14, 'LINESTRING(11 12, 12 12)');
create index lines_gix on lines using gist(geom);

Oto funkcja rekurencyjna, która, biorąc pod uwagę identyfikator krawędzi, gromadzi wszystkie dotykające się krawędzie:

CREATE OR REPLACE FUNCTION find_connected(integer) returns integer[] AS
$$
WITH RECURSIVE lines_r AS (
  SELECT ARRAY[id] AS idlist, geom, id
  FROM lines 
  WHERE id = $1
  UNION ALL
  SELECT array_append(lines_r.idlist, lines.id) AS idlist, 
         lines.geom AS geom, 
         lines.id AS id
  FROM lines, lines_r
  WHERE ST_Touches(lines.geom, lines_r.geom)
  AND NOT lines_r.idlist @> ARRAY[lines.id]
)
SELECT 
  array_agg(id) AS idlist
  FROM lines_r
$$ 
LANGUAGE 'sql';

To po prostu powoduje, że musimy znaleźć, po zgromadzeniu każdej grupy, identyfikator krawędzi, która nie jest już częścią grupy. Co, tragicznie, wymaga drugiego zapytania rekurencyjnego.

WITH RECURSIVE groups_r AS (
  (SELECT find_connected(id) AS idlist, 
          find_connected(id) AS grouplist, 
          id FROM lines WHERE id = 1)
  UNION ALL
  (SELECT array_cat(groups_r.idlist,find_connected(lines.id)) AS idlist,
         find_connected(lines.id) AS grouplist,
         lines.id
  FROM lines, groups_r
  WHERE NOT idlist @> ARRAY[lines.id]
  LIMIT 1)
)
SELECT id, grouplist
FROM groups_r;

Które razem wzięte zwracają ładny zestaw z identyfikatorem nasion i każdą grupą, którą zgromadził. Zostawiam to jako ćwiczenie dla czytelnika, aby przekształcić tablice id z powrotem w zapytanie, aby utworzyć geometrię do mapowania.

 id |   grouplist   
----+---------------
  1 | {1,2,3,4}
 11 | {11,12,13,14}
(2 rows)

— Paul Ramsey
źródło

Myślę, że ten kod może być prostszy, jeśli typ geometrii obsługujący haszowanie w PostgreSQL (kiedy piszesz prostszy RCTE, który nie wymaga gromadzenia tablic identyfikatorów, pojawia się błąd „Wszystkie typy danych kolumn muszą być haszowalne”), więc istnieje mała prośba o ulepszenie dla mnie.

— Paul Ramsey,

To naprawdę niesamowite podejście. Zauważyłem dziwne wyniki, gdy stosuję je do większego zestawu testowego; Zobaczę, czy mogę zredukować problem do prostego przykładu. 100 linii: 85 klastrów, największy klaster = 3, 0,03 s //// 200 linii: 144 klastrów, największy klaster = 9, 0,08 s //// 300 linii: 180 klastrów, największy klaster = 51, 0,16 s /// / 400 linii: 188 klastrów, największy klaster = 41, 0,27 s //// 500 linii: 176 klastrów, największy klaster = 112, 0,56 s //// 600 linii: 143 klastrów, największy klaster = 449, 1,0 s // // 650 linii: 133 klastry, największy klaster = 7601, 6,8 s

— dbaston

Dodanie tego do danych testowego spowoduje zduplikowane identyfikatory w grouplisttablicy: insert into lines (id, geom) values ( 15, 'LINESTRING(0 0, 10 10)');. Zmiana array_agg(id)funkcji return na array_agg(DISTINCT id)wydaje się rozwiązać problem.

— dbaston

To dobre rozwiązanie, więc w jaki sposób możemy przechowywać geometrie w tabeli, aby widzieć połączone linie?

— zakaria mouqcit

Oto podejście wykorzystujące tabelę tymczasową do przyrostowego agregowania klastrów razem. Naprawdę nie dbam o podejście do tabeli tymczasowej, ale wydaje się, że działa całkiem dobrze, gdy liczba linii rośnie (mam 1,2 mln linii na wejściu).

DO
$$
DECLARE
this_id bigint;
this_geom geometry;
cluster_id_match integer;

id_a bigint;
id_b bigint;

BEGIN
DROP TABLE IF EXISTS clusters;
CREATE TABLE clusters (cluster_id serial, ids bigint[], geom geometry);
CREATE INDEX ON clusters USING GIST(geom);

-- Iterate through linestrings, assigning each to a cluster (if there is an intersection)
-- or creating a new cluster (if there is not)
FOR this_id, this_geom IN SELECT id, geom FROM lines LOOP
  -- Look for an intersecting cluster.  (There may be more than one.)
  SELECT cluster_id FROM clusters WHERE ST_Intersects(this_geom, clusters.geom)
     LIMIT 1 INTO cluster_id_match;

  IF cluster_id_match IS NULL THEN
     -- Create a new cluster
     INSERT INTO clusters (ids, geom) VALUES (ARRAY[this_id], this_geom);
  ELSE
     -- Append line to existing cluster
     UPDATE clusters SET geom = ST_Union(this_geom, geom),
                          ids = array_prepend(this_id, ids)
      WHERE clusters.cluster_id = cluster_id_match;
  END IF;
END LOOP;

-- Iterate through the clusters, combining clusters that intersect each other
LOOP
    SELECT a.cluster_id, b.cluster_id FROM clusters a, clusters b 
     WHERE ST_Intersects(a.geom, b.geom)
       AND a.cluster_id < b.cluster_id
      INTO id_a, id_b;

    EXIT WHEN id_a IS NULL;
    -- Merge cluster A into cluster B
    UPDATE clusters a SET geom = ST_Union(a.geom, b.geom), ids = array_cat(a.ids, b.ids)
      FROM clusters b
     WHERE a.cluster_id = id_a AND b.cluster_id = id_b;

    -- Remove cluster B
    DELETE FROM clusters WHERE cluster_id = id_b;
END LOOP;
END;
$$ language plpgsql;

— dbaston
źródło

działa idealnie

— zakaria mouqcit

@zakariamouqcit Cieszę się, że to działało dla Ciebie! Napisałem tę odpowiedź, zanim napisałem ST_ClusterIntersectingfunkcję w PostGIS. Jeśli Twoje dane są wystarczająco małe, aby zmieściły się w pamięci, sugeruję sprawdzenie tego w celu uzyskania bardziej wydajnego rozwiązania.

— dbaston

poszukiwanie tego pytania sprowadziło mnie tutaj. Próbowałem iteracji i st_clusterintersecting, ale okazało się, że st_clusterDBScan jest najbardziej odpowiedni. Na wypadek, gdyby sprowadzono tu kogoś innego. postgis.net/docs/manual-dev/ST_ClusterDBSCAN.html

— D_C

Uzgodniony, ST_ClusterDBSCAN jest prawie zawsze najlepszym sposobem na PostGIS 2.3+

— dbaston