Różnice między numpy.random i random.random w Pythonie

Question 1

Mam duży skrypt w Pythonie. Zainspirowałem się kodem innych ludzi, więc ostatecznie wykorzystałem numpy.randommoduł do niektórych rzeczy (na przykład do stworzenia tablicy liczb losowych wziętych z rozkładu dwumianowego), aw innych miejscach używam modułu random.random.

Czy ktoś może mi powiedzieć, jakie są główne różnice między nimi? Patrząc na stronę internetową dokumentu dla każdego z nich, wydaje mi się, że numpy.randomma po prostu więcej metod, ale nie jestem pewien, jak różni się generowanie liczb losowych.

Powodem, dla którego pytam, jest to, że muszę umieścić mój główny program w celu debugowania. Ale to nie działa, chyba że używam tego samego generatora liczb losowych we wszystkich modułach, które importuję. Czy to prawda?

Przeczytałem również tutaj, w innym poście, dyskusję o NIE używaniu numpy.random.seed(), ale tak naprawdę nie rozumiałem, dlaczego to był taki zły pomysł. Byłbym bardzo wdzięczny, gdyby ktoś wyjaśnił mi, dlaczego tak jest.

Question 2

Dokonałeś już wielu poprawnych obserwacji!

O ile nie chcesz wysiewać obu losowych generatorów, na dłuższą metę prawdopodobnie łatwiej będzie wybrać jeden lub drugi generator. Ale jeśli musisz użyć obu, to tak, musisz również zasiać oba, ponieważ generują liczby losowe niezależnie od siebie.

Ponieważ numpy.random.seed()główna trudność polega na tym, że nie jest bezpieczny dla wątków - to znaczy, że nie jest bezpieczny w użyciu, jeśli masz wiele różnych wątków wykonania , ponieważ nie ma gwarancji, że zadziała, jeśli dwa różne wątki wykonują funkcję w tym samym czasie. Jeśli nie używasz wątków i możesz rozsądnie oczekiwać, że nie będziesz musiał przepisywać swojego programu w ten sposób w przyszłości, numpy.random.seed()powinno być dobrze. Jeśli istnieje jakikolwiek powód, by podejrzewać, że możesz potrzebować wątków w przyszłości, na dłuższą metę znacznie bezpieczniej jest postępować zgodnie z sugestią i utworzyć lokalną instancję numpy.random.Randomklasy . O ile wiem, random.random.seed()jest bezpieczny dla wątków (a przynajmniej nie znalazłem żadnych dowodów przeciwnych).

numpy.randomBiblioteka zawiera kilka dodatkowych rozkładów prawdopodobieństwa powszechnie wykorzystywane w badaniach naukowych, a także kilka funkcji wygoda dla generowania tablic losowych danych. random.randomBiblioteka jest trochę bardziej lekki i powinno być w porządku, jeśli nie robisz badań naukowych lub innych rodzajów prac w statystykach.

W przeciwnym razie obaj używają sekwencji twistera Mersenne'a do generowania swoich liczb losowych i oba są całkowicie deterministyczne - to znaczy, jeśli znasz kilka kluczowych informacji, można z absolutną pewnością przewidzieć, jaka liczba będzie następna . Z tego powodu ani numpy.random, ani random.random nie nadają się do poważnych zastosowań kryptograficznych . Ale ponieważ sekwencja jest tak bardzo długa, obie są dobre do generowania liczb losowych w przypadkach, gdy nie martwisz się, że ludzie próbują odtworzyć twoje dane. Stąd też konieczność zasiania losowej wartości - jeśli zaczniesz za każdym razem w tym samym miejscu, zawsze otrzymasz tę samą sekwencję liczb losowych!

Na marginesie, jeśli nie potrzebujemy poziom losowości kryptograficznych, należy użyć tajemnice moduł lub coś podobnego Crypto.Random jeśli używasz wersji Pythona wcześniej niż Python 3.6.

Question 3

Począwszy od Pythona do analizy danych , moduł numpy.randomuzupełnia Python randomo funkcje do wydajnego generowania całych tablic wartości przykładowych z wielu rodzajów rozkładów prawdopodobieństwa.

Z kolei wbudowany randommoduł Pythona próbkuje tylko jedną wartość na raz, podczas gdy numpy.randommoże szybciej generować bardzo duże próbki. Korzystając z magicznej funkcji IPythona, %timeitmożna zobaczyć, który moduł działa szybciej:

In [1]: from random import normalvariate
In [2]: N = 1000000

In [3]: %timeit samples = [normalvariate(0, 1) for _ in xrange(N)]
1 loop, best of 3: 963 ms per loop

In [4]: %timeit np.random.normal(size=N)
10 loops, best of 3: 38.5 ms per loop

Question 4

Źródło ziarna i używany profil dystrybucji będą miały wpływ na wyniki - jeśli szukasz kryptograficznej losowości, seeding z os.urandom () otrzyma prawie rzeczywiste losowe bajty z rozmowy urządzenia (tj. Ethernet lub dysk) (tj. / dev / random na BSD)

pozwoli to uniknąć podania ziarna, a tym samym generowania deterministycznych liczb losowych. Jednak losowe wywołania pozwalają następnie dopasować liczby do rozkładu (to, co nazywam naukową losowością - ostatecznie wszystko, czego chcesz, to rozkład krzywej dzwonowej liczb losowych, numpy jest najlepszy w osiągnięciu tego.

WIĘC tak, trzymaj się jednego generatora, ale zdecyduj, jaki chcesz losowy - losowy, ale zdecydowanie na podstawie krzywej zniekształcenia lub tak losowy, jak możesz uzyskać bez urządzenia kwantowego.