Dlaczego skanowanie jest szybsze niż wyszukiwanie tego predykatu?

Udało mi się odtworzyć problem z wydajnością zapytania, który opisałbym jako nieoczekiwany. Szukam odpowiedzi, która koncentruje się na wewnętrznych.

Na moim komputerze następujące zapytanie wykonuje skanowanie indeksu klastrowego i zajmuje około 6,8 sekundy czasu procesora:

SELECT ID1, ID2
FROM two_col_key_test WITH (FORCESCAN)
WHERE ID1 NOT IN
(
N'1', N'2',N'3', N'4', N'5',
N'6', N'7', N'8', N'9', N'10',
N'11', N'12',N'13', N'14', N'15',
N'16', N'17', N'18', N'19', N'20'
)
AND (ID1 = N'FILLER TEXT' AND ID2 >= N'' OR (ID1 > N'FILLER TEXT'))
ORDER BY ID1, ID2 OFFSET 12000000 ROWS FETCH FIRST 1 ROW ONLY
OPTION (MAXDOP 1);

Następujące zapytanie wyszukuje indeks klastrowany (jedyną różnicą jest usunięcie FORCESCANpodpowiedzi), ale zajmuje około 18,2 sekundy czasu procesora:

SELECT ID1, ID2
FROM two_col_key_test
WHERE ID1 NOT IN
(
N'1', N'2',N'3', N'4', N'5',
N'6', N'7', N'8', N'9', N'10',
N'11', N'12',N'13', N'14', N'15',
N'16', N'17', N'18', N'19', N'20'
)
AND (ID1 = N'FILLER TEXT' AND ID2 >= N'' OR (ID1 > N'FILLER TEXT'))
ORDER BY ID1, ID2 OFFSET 12000000 ROWS FETCH FIRST 1 ROW ONLY
OPTION (MAXDOP 1);

Plany zapytań są dość podobne. Dla obu zapytań z indeksu klastrowego odczytanych jest 120000001 wierszy:

Jestem na SQL Server 2017 CU 10. Oto kod, aby utworzyć i wypełnić two_col_key_testtabelę:

drop table if exists dbo.two_col_key_test;

CREATE TABLE dbo.two_col_key_test (
    ID1 NVARCHAR(50) NOT NULL,
    ID2 NVARCHAR(50) NOT NULL,
    FILLER NVARCHAR(50),
    PRIMARY KEY (ID1, ID2)
);

DROP TABLE IF EXISTS #t;

SELECT TOP (4000) 0 ID INTO #t
FROM master..spt_values t1
CROSS JOIN master..spt_values t2
OPTION (MAXDOP 1);


INSERT INTO dbo.two_col_key_test WITH (TABLOCK)
SELECT N'FILLER TEXT' + CASE WHEN ROW_NUMBER() OVER (ORDER BY (SELECT NULL)) > 8000000 THEN N' 2' ELSE N'' END
, ROW_NUMBER() OVER (ORDER BY (SELECT NULL))
, NULL
FROM #t t1
CROSS JOIN #t t2;

Mam nadzieję na odpowiedź, która wykracza poza raportowanie stosu połączeń. Widzę na przykład, że sqlmin!TCValSSInRowExprFilter<231,0,0>::GetDataXpotrzeba dużo więcej cykli procesora w wolnym zapytaniu w porównaniu do szybkiego:

Zamiast się tam zatrzymać, chciałbym zrozumieć, co to jest i dlaczego istnieje tak duża różnica między tymi dwoma zapytaniami.

Dlaczego istnieje duża różnica w czasie procesora dla tych dwóch zapytań?

sql-server query-performance database-internals

— Joe Obbish
źródło

Dlaczego istnieje duża różnica w czasie procesora dla tych dwóch zapytań?

Plan skanowania ocenia następującą predykcję wypychaną, która nie jest wymienna (resztkowa) dla każdego wiersza:

[two_col_key_test].[ID1]<>N'1' 
AND [two_col_key_test].[ID1]<>N'10' 
AND [two_col_key_test].[ID1]<>N'11' 
AND [two_col_key_test].[ID1]<>N'12' 
AND [two_col_key_test].[ID1]<>N'13' 
AND [two_col_key_test].[ID1]<>N'14' 
AND [two_col_key_test].[ID1]<>N'15' 
AND [two_col_key_test].[ID1]<>N'16' 
AND [two_col_key_test].[ID1]<>N'17' 
AND [two_col_key_test].[ID1]<>N'18' 
AND [two_col_key_test].[ID1]<>N'19' 
AND [two_col_key_test].[ID1]<>N'2' 
AND [two_col_key_test].[ID1]<>N'20' 
AND [two_col_key_test].[ID1]<>N'3' 
AND [two_col_key_test].[ID1]<>N'4' 
AND [two_col_key_test].[ID1]<>N'5' 
AND [two_col_key_test].[ID1]<>N'6' 
AND [two_col_key_test].[ID1]<>N'7' 
AND [two_col_key_test].[ID1]<>N'8' 
AND [two_col_key_test].[ID1]<>N'9' 
AND 
(
    [two_col_key_test].[ID1]=N'FILLER TEXT' 
    AND [two_col_key_test].[ID2]>=N'' 
    OR [two_col_key_test].[ID1]>N'FILLER TEXT'
)

Plan wyszukiwania wykonuje dwie operacje wyszukiwania:

Seek Keys[1]: 
    Prefix: 
    [two_col_key_test].ID1 = Scalar Operator(N'FILLER TEXT'), 
        Start: [two_col_key_test].ID2 >= Scalar Operator(N'')
Seek Keys[1]: 
    Start: [two_col_key_test].ID1 > Scalar Operator(N'FILLER TEXT')

... aby dopasować tę część predykatu:

(ID1 = N'FILLER TEXT' AND ID2 >= N'' OR (ID1 > N'FILLER TEXT'))

Predykat rezydualny jest stosowany do wierszy, które spełniają powyższe warunki wyszukiwania (wszystkie wiersze w twoim przykładzie).

Jednak każdą nierówność zastępuje się dwoma oddzielnymi testami dla mniej niż OR większych niż :

([two_col_key_test].[ID1]<N'1' OR [two_col_key_test].[ID1]>N'1') 
AND ([two_col_key_test].[ID1]<N'10' OR [two_col_key_test].[ID1]>N'10') 
AND ([two_col_key_test].[ID1]<N'11' OR [two_col_key_test].[ID1]>N'11') 
AND ([two_col_key_test].[ID1]<N'12' OR [two_col_key_test].[ID1]>N'12') 
AND ([two_col_key_test].[ID1]<N'13' OR [two_col_key_test].[ID1]>N'13') 
AND ([two_col_key_test].[ID1]<N'14' OR [two_col_key_test].[ID1]>N'14') 
AND ([two_col_key_test].[ID1]<N'15' OR [two_col_key_test].[ID1]>N'15') 
AND ([two_col_key_test].[ID1]<N'16' OR [two_col_key_test].[ID1]>N'16') 
AND ([two_col_key_test].[ID1]<N'17' OR [two_col_key_test].[ID1]>N'17') 
AND ([two_col_key_test].[ID1]<N'18' OR [two_col_key_test].[ID1]>N'18') 
AND ([two_col_key_test].[ID1]<N'19' OR [two_col_key_test].[ID1]>N'19') 
AND ([two_col_key_test].[ID1]<N'2' OR [two_col_key_test].[ID1]>N'2') 
AND ([two_col_key_test].[ID1]<N'20' OR [two_col_key_test].[ID1]>N'20') 
AND ([two_col_key_test].[ID1]<N'3' OR [two_col_key_test].[ID1]>N'3') 
AND ([two_col_key_test].[ID1]<N'4' OR [two_col_key_test].[ID1]>N'4') 
AND ([two_col_key_test].[ID1]<N'5' OR [two_col_key_test].[ID1]>N'5') 
AND ([two_col_key_test].[ID1]<N'6' OR [two_col_key_test].[ID1]>N'6') 
AND ([two_col_key_test].[ID1]<N'7' OR [two_col_key_test].[ID1]>N'7') 
AND ([two_col_key_test].[ID1]<N'8' OR [two_col_key_test].[ID1]>N'8') 
AND ([two_col_key_test].[ID1]<N'9' OR [two_col_key_test].[ID1]>N'9')

Przepisywanie każdej nierówności, np .:

[ID1] <> N'1'  ->  [ID1]<N'1' OR [ID1]>N'1'

... przynosi efekt przeciwny do zamierzonego. Porównywane ciągi znaków uwzględniające sortowanie są drogie. Podwojenie liczby porównań wyjaśnia większość różnicy w czasie pracy procesora.

Możesz to lepiej zobaczyć, wyłączając wypychanie predykatów niewymiernych z nieudokumentowaną flagą śledzenia 9130. To pokaże pozostałość jako osobny filtr, z informacjami o wydajności, które możesz sprawdzić osobno:

Podkreśli to również niewielki błąd kardynalności w wyszukiwaniu, co wyjaśnia, dlaczego optymalizator wybrał wyszukiwanie w pierwszym rzędzie zamiast skanu (spodziewał się, że część szukająca wyeliminuje niektóre wiersze).

Chociaż przepisywanie nierówności może umożliwić (ewentualnie przefiltrowane) dopasowanie indeksu (aby jak najlepiej wykorzystać zdolność wyszukiwania indeksów b-drzewa), lepiej byłoby później cofnąć to rozwinięcie, jeśli obie połowy znajdą się w resztkowym. Możesz zasugerować to jako ulepszenie na stronie z opiniami na temat SQL Server .

Należy również zauważyć, że oryginalny („starszy”) model szacowania liczności zdarza się, aby domyślnie wybrać skanowanie dla tego zapytania.

— Paul White mówi GoFundMonica
źródło