Statystyki i duże zbiory danych

7

Referencje sieci neuronowej (podręczniki, kursy online) dla początkujących

Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa komputerowego. Przeglądałem sieć w celach informacyjnych i znalazłem kilka książek i materiałów. Ripley, …

43 neural-networks deep-learning references natural-language computer-vision

3

Czy CDF są bardziej fundamentalne niż pliki PDF?

Moja stat prof w zasadzie powiedziała, że jeśli otrzyma się jedną z następujących trzech, można znaleźć dwie pozostałe: Funkcja rozkładu skumulowanego Funkcja generowania momentu Funkcja gęstości prawdopodobieństwa Ale mój profesor ekonometrii powiedział, że CDF są bardziej fundamentalne niż PDF, ponieważ istnieją przykłady, w których możesz mieć CDF, ale PDF nie …

43 probability pdf cdf mgf

13

Czy uczenie maszynowe może dekodować skróty SHA256?

Mam 64-znakowy skrót SHA256. Mam nadzieję wytrenować model, który może przewidzieć, czy tekst jawny użyty do wygenerowania skrótu zaczyna się od 1, czy nie. Niezależnie od tego, czy jest to „możliwe”, jaki algorytm byłby najlepszy? Moje początkowe przemyślenia: Wygeneruj dużą próbkę skrótów rozpoczynających się od 1 i dużą próbkę skrótów, …

43 machine-learning logistic

5

Co możemy powiedzieć o populacji w próbie 1?

Zastanawiam się, co możemy powiedzieć, jeśli w ogóle, o średniej populacji, kiedy wszystko, co mam, to jeden pomiar, (wielkość próby 1). Oczywiście chcielibyśmy mieć więcej pomiarów, ale nie możemy ich uzyskać.y 1μμ\muy1y1y_1 Wydaje mi się, że skoro średnia próbki, , jest trywialnie równa , to . Jednak przy wielkości próby …

43 mean sample-size small-sample unbiased-estimator

3

Warstwa Softmax w sieci neuronowej

Próbuję dodać warstwę softmax do sieci neuronowej wyuczonej z propagacji wstecznej, więc próbuję obliczyć jej gradient. Wyjście softmax to gdzie jest wyjściowym numerem neuronu.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jeśli to uzyskam, to dostanę ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Podobne do regresji logistycznej. Jest to jednak błędne, ponieważ moja numeryczna kontrola gradientu kończy się niepowodzeniem. Co ja …

43 neural-networks

2

Losowe założenia lasu

Jestem trochę nowym przypadkowym lasem, więc wciąż mam problemy z podstawowymi pojęciami. W regresji liniowej zakładamy niezależne obserwacje, stałą wariancję… Jakie są podstawowe założenia / hipotezy, kiedy korzystamy z losowego lasu? Jakie są kluczowe różnice między losowymi lasami a naiwnymi laskami pod względem założeń modelowych?

43 regression classification random-forest

5

Co znaczą „endogeniczność” i „egzogeniczność”?

Rozumiem, że podstawowa definicja endogeniczności jest taka, że nie jest spełniony, ale co to oznacza w sensie realnym? Czytam artykuł z Wikipedii, na przykład podaży i popytu, próbując to zrozumieć, ale to naprawdę nie pomogło. Słyszałem inny opis endogennego i egzogennego jako bycia w systemie i bycia poza nim, a …

43 regression causality instrumental-variables

6

Funkcje klasyfikacji szeregów czasowych

Rozważam problem klasyfikacji (wieloklasowej) na podstawie szeregów czasowych o zmiennej długości , to znaczy znaleźć funkcję poprzez globalną reprezentację serii czasowej przez zestaw wybranych cech o stałym rozmiarze niezależnym od , a następnie użyj standardowych metod klasyfikacji w tym zestawie funkcji. Ja nie interesuje się prognozowania, czyli przewidywanief ( X …

43 time-series classification feature-selection signal-processing

4

Jak porównać statystycznie dwie serie czasowe?

Mam dwie serie czasowe pokazane na poniższym wykresie: Fabuła pokazuje pełny szczegół obu serii czasowych, ale w razie potrzeby mogę łatwo sprowadzić je do obserwacji zbieżnych. Moje pytanie brzmi: jakich metod statystycznych mogę użyć do oceny różnic między szeregami czasowymi? Wiem, że jest to dość szerokie i niejasne pytanie, ale …

43 r time-series

5

Regresja, gdy reszty OLS nie są zwykle rozkładane

Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a zaobserwowanymi resztkami. Powiedzmy jednak, że reszty zdecydowanie nie …

43 regression least-squares residuals assumptions normality-assumption

4

Kompendium technik walidacji krzyżowej

Zastanawiam się, czy ktoś wie o kompendium technik walidacji krzyżowej z dyskusją na temat różnic między nimi i wskazówką, kiedy stosować każdą z nich. Wikipedia ma listę najpopularniejszych technik, ale jestem ciekawy, czy istnieją inne techniki i czy istnieją dla nich taksonomie. Na przykład po prostu wpadam na bibliotekę, która …

43 cross-validation

5

Fałszywe jednolite liczby losowe: bardziej równomiernie rozłożone niż prawdziwe jednolite dane

Szukam sposobu generowania liczb losowych, które wydają się być jednolicie rozmieszczone - a każdy test wykaże, że są one jednolite - z tym wyjątkiem, że są one bardziej równomiernie rozłożone niż prawdziwe jednolite dane . Problem, jaki mam z „prawdziwymi” losowymi mundurami, polega na tym, że czasami się grupują. Efekt …

43 distributions random-generation uniform quasi-monte-carlo

9

Małe (prawdziwe) zbiory danych do dawania przykładów w klasie?

Nauczając klasę wprowadzającą, znani nauczyciele mają tendencję do wymyślania pewnych liczb i historii w celu zilustrowania metody, której nauczają. Wolałbym opowiedzieć prawdziwą historię z prawdziwymi liczbami. Historie te muszą jednak odnosić się do bardzo małego zestawu danych, który umożliwia ręczne obliczenia. Wszelkie sugestie dotyczące takich zestawów danych będą bardzo mile …

43 dataset references teaching

4

Co to jest różnica w różnicach?

Różnica różnic od dawna jest popularna jako narzędzie nie eksperymentalne, zwłaszcza w ekonomii. Czy ktoś może udzielić jasnej i nietechnicznej odpowiedzi na następujące pytania dotyczące różnic w różnicach. Co to jest estymator różnicy w różnicach? Dlaczego estymator różnicy w różnicach jest wykorzystywany? Czy rzeczywiście możemy ufać szacunkom różnic w różnicach?

43 regression econometrics difference-in-difference

3

Przegląd statystyki w artykułach

Dla niektórych z nas papiery sędziowskie są częścią pracy. Uważając, że sędziując dokumenty dotyczące metodologii statystycznej, porady z innych dziedzin są dość przydatne, tj. Informatyka i matematyka . To pytanie dotyczy przeglądu częściej stosowanych prac statystycznych. Rozumiem przez to, że artykuł jest przekazywany do czasopisma niestatystycznego / matematycznego, a statystyka …

43 journals referee