Funkcja skrótu w Pythonie 3.3 zwraca różne wyniki między sesjami

Question 1

Zaimplementowałem BloomFilter w Pythonie 3.3 i otrzymałem różne wyniki podczas każdej sesji. Analiza tego dziwnego zachowania doprowadziła mnie do wewnętrznej funkcji hash () - zwraca ona różne wartości skrótu dla tego samego ciągu w każdej sesji.

Przykład:

>>> hash("235")
-310569535015251310

----- otwieranie nowej konsoli Pythona -----

>>> hash("235")
-1900164331622581997

Dlaczego to się dzieje? Dlaczego jest to przydatne?

Question 2

Python wykorzystuje losowe ziarno hash, aby uniemożliwić atakującym wykonanie tarowania aplikacji przez wysyłanie kluczy zaprojektowanych do kolizji. Zobacz oryginalne ujawnienie luk w zabezpieczeniach . Zrównując hasz losowym ziarnem (ustawionym raz przy starcie), atakujący nie mogą już przewidzieć, które klucze będą kolidować.

Możesz ustawić stałe ziarno lub wyłączyć tę funkcję, ustawiając PYTHONHASHSEEDzmienną środowiskową ; wartość domyślna to, randomale możesz ustawić ją na stałą dodatnią liczbę całkowitą, z całkowitym 0wyłączeniem tej funkcji.

Python w wersjach 2.7 i 3.2 ma tę funkcję domyślnie wyłączoną (użyj -Rprzełącznika lub ustaw ją, PYTHONHASHSEED=randomaby ją włączyć); jest on domyślnie włączony w Pythonie 3.3 i nowszych.

Jeśli polegałeś na kolejności kluczy w zestawie Pythona, nie rób tego. Python używa tablicy skrótów do implementacji tych typów, a ich kolejność zależy od historii wstawiania i usuwania, a także od losowego materiału siewnego. Zwróć uwagę, że w Pythonie 3.5 i starszych dotyczy to również słowników.

Zobacz także object.__hash__()dokumentację metod specjalnych :

Uwaga : Domyślnie __hash__()wartości obiektów str, bytes i datetime są „salted” z nieprzewidywalną losową wartością. Chociaż pozostają stałe w ramach pojedynczego procesu Pythona, nie można ich przewidzieć między powtarzającymi się wywołaniami Pythona.

Ma to na celu zapewnienie ochrony przed odmową usługi spowodowaną przez starannie dobrane dane wejściowe, które wykorzystują najgorszą wydajność wstawiania dyktowania, złożoność O (n ^ 2). Szczegółowe informacje można znaleźć pod adresem http://www.ocert.org/advisories/ocert-2011-003.html .

Zmiana wartości skrótu wpływa na kolejność iteracji dykt, zestawów i innych mapowań. Python nigdy nie udzielił gwarancji co do takiej kolejności (i zwykle różni się ona między wersjami 32-bitowymi i 64-bitowymi).

Zobacz także PYTHONHASHSEED.

Jeśli potrzebujesz stabilnej implementacji skrótu, prawdopodobnie zechcesz przyjrzeć się hashlibmodułowi ; to implementuje kryptograficzne funkcje skrótu. Projekt pybloom wykorzystuje to podejście .

Ponieważ offset składa się z przedrostka i sufiksu (odpowiednio wartość początkowa i końcowa wartość XOR), niestety nie można go po prostu zapisać. Z drugiej strony oznacza to, że atakujący nie mogą łatwo określić przesunięcia za pomocą ataków czasowych.

Question 3

Randomizacja hash jest domyślnie włączona w Pythonie 3 . To jest funkcja bezpieczeństwa:

Randomizacja hash ma na celu zapewnienie ochrony przed atakiem typu „odmowa usługi” spowodowanym przez starannie dobrane dane wejściowe, które wykorzystują wydajność konstrukcji dykta w najgorszym przypadku

W poprzednich wersjach od 2.6.8 można było włączyć go w wierszu poleceń za pomocą -R lub opcji środowiska PYTHONHASHSEED .

Możesz go wyłączyć, ustawiając PYTHONHASHSEEDna zero.

Question 4

hash () jest funkcją wbudowaną w Pythonie i używa jej do obliczenia wartości skrótu dla obiektu , a nie dla ciągu znaków lub liczby.

Szczegóły możesz zobaczyć na tej stronie: https://docs.python.org/3.3/library/functions.html#hash .

a wartości hash () pochodzą z metody __hash__ obiektu. Doktor mówi, co następuje:

Domyślnie wartości hash () obiektów str, bytes i datetime są „salted” z nieprzewidywalną wartością losową. Chociaż pozostają stałe w ramach pojedynczego procesu Pythona, nie można ich przewidzieć między powtarzającymi się wywołaniami Pythona.

Dlatego masz inną wartość skrótu dla tego samego ciągu w innej konsoli.

To, co wdrażasz, nie jest dobrym sposobem.

Jeśli chcesz obliczyć wartość skrótu ciągu, po prostu użyj hashlib

hash () ma na celu uzyskanie wartości skrótu obiektu, a nie mieszania.