Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

7
Referencje sieci neuronowej (podręczniki, kursy online) dla początkujących
Chcę nauczyć się sieci neuronowych. Jestem lingwistą komputerowym. Znam statystyczne metody uczenia maszynowego i potrafię kodować w Pythonie. Chciałbym zacząć od jego koncepcji i znam jeden lub dwa popularne modele, które mogą być przydatne z perspektywy językoznawstwa komputerowego. Przeglądałem sieć w celach informacyjnych i znalazłem kilka książek i materiałów. Ripley, …

3
Czy CDF są bardziej fundamentalne niż pliki PDF?
Moja stat prof w zasadzie powiedziała, że ​​jeśli otrzyma się jedną z następujących trzech, można znaleźć dwie pozostałe: Funkcja rozkładu skumulowanego Funkcja generowania momentu Funkcja gęstości prawdopodobieństwa Ale mój profesor ekonometrii powiedział, że CDF są bardziej fundamentalne niż PDF, ponieważ istnieją przykłady, w których możesz mieć CDF, ale PDF nie …
43 probability  pdf  cdf  mgf 

13
Czy uczenie maszynowe może dekodować skróty SHA256?
Mam 64-znakowy skrót SHA256. Mam nadzieję wytrenować model, który może przewidzieć, czy tekst jawny użyty do wygenerowania skrótu zaczyna się od 1, czy nie. Niezależnie od tego, czy jest to „możliwe”, jaki algorytm byłby najlepszy? Moje początkowe przemyślenia: Wygeneruj dużą próbkę skrótów rozpoczynających się od 1 i dużą próbkę skrótów, …

5
Co możemy powiedzieć o populacji w próbie 1?
Zastanawiam się, co możemy powiedzieć, jeśli w ogóle, o średniej populacji, kiedy wszystko, co mam, to jeden pomiar, (wielkość próby 1). Oczywiście chcielibyśmy mieć więcej pomiarów, ale nie możemy ich uzyskać.y 1μμ\muy1y1y_1 Wydaje mi się, że skoro średnia próbki, , jest trywialnie równa , to . Jednak przy wielkości próby …

3
Warstwa Softmax w sieci neuronowej
Próbuję dodać warstwę softmax do sieci neuronowej wyuczonej z propagacji wstecznej, więc próbuję obliczyć jej gradient. Wyjście softmax to gdzie jest wyjściowym numerem neuronu.hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}}jjj Jeśli to uzyskam, to dostanę ∂hj∂zj=hj(1−hj)∂hj∂zj=hj(1−hj)\frac{\partial{h_j}}{\partial{z_j}}=h_j(1-h_j) Podobne do regresji logistycznej. Jest to jednak błędne, ponieważ moja numeryczna kontrola gradientu kończy się niepowodzeniem. Co ja …

2
Losowe założenia lasu
Jestem trochę nowym przypadkowym lasem, więc wciąż mam problemy z podstawowymi pojęciami. W regresji liniowej zakładamy niezależne obserwacje, stałą wariancję… Jakie są podstawowe założenia / hipotezy, kiedy korzystamy z losowego lasu? Jakie są kluczowe różnice między losowymi lasami a naiwnymi laskami pod względem założeń modelowych?


6
Funkcje klasyfikacji szeregów czasowych
Rozważam problem klasyfikacji (wieloklasowej) na podstawie szeregów czasowych o zmiennej długości , to znaczy znaleźć funkcję poprzez globalną reprezentację serii czasowej przez zestaw wybranych cech o stałym rozmiarze niezależnym od , a następnie użyj standardowych metod klasyfikacji w tym zestawie funkcji. Ja nie interesuje się prognozowania, czyli przewidywanief ( X …

4
Jak porównać statystycznie dwie serie czasowe?
Mam dwie serie czasowe pokazane na poniższym wykresie: Fabuła pokazuje pełny szczegół obu serii czasowych, ale w razie potrzeby mogę łatwo sprowadzić je do obserwacji zbieżnych. Moje pytanie brzmi: jakich metod statystycznych mogę użyć do oceny różnic między szeregami czasowymi? Wiem, że jest to dość szerokie i niejasne pytanie, ale …
43 r  time-series 

5
Regresja, gdy reszty OLS nie są zwykle rozkładane
Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a zaobserwowanymi resztkami. Powiedzmy jednak, że reszty zdecydowanie nie …

4
Kompendium technik walidacji krzyżowej
Zastanawiam się, czy ktoś wie o kompendium technik walidacji krzyżowej z dyskusją na temat różnic między nimi i wskazówką, kiedy stosować każdą z nich. Wikipedia ma listę najpopularniejszych technik, ale jestem ciekawy, czy istnieją inne techniki i czy istnieją dla nich taksonomie. Na przykład po prostu wpadam na bibliotekę, która …

5
Fałszywe jednolite liczby losowe: bardziej równomiernie rozłożone niż prawdziwe jednolite dane
Szukam sposobu generowania liczb losowych, które wydają się być jednolicie rozmieszczone - a każdy test wykaże, że są one jednolite - z tym wyjątkiem, że są one bardziej równomiernie rozłożone niż prawdziwe jednolite dane . Problem, jaki mam z „prawdziwymi” losowymi mundurami, polega na tym, że czasami się grupują. Efekt …

9
Małe (prawdziwe) zbiory danych do dawania przykładów w klasie?
Nauczając klasę wprowadzającą, znani nauczyciele mają tendencję do wymyślania pewnych liczb i historii w celu zilustrowania metody, której nauczają. Wolałbym opowiedzieć prawdziwą historię z prawdziwymi liczbami. Historie te muszą jednak odnosić się do bardzo małego zestawu danych, który umożliwia ręczne obliczenia. Wszelkie sugestie dotyczące takich zestawów danych będą bardzo mile …

4
Co to jest różnica w różnicach?
Różnica różnic od dawna jest popularna jako narzędzie nie eksperymentalne, zwłaszcza w ekonomii. Czy ktoś może udzielić jasnej i nietechnicznej odpowiedzi na następujące pytania dotyczące różnic w różnicach. Co to jest estymator różnicy w różnicach? Dlaczego estymator różnicy w różnicach jest wykorzystywany? Czy rzeczywiście możemy ufać szacunkom różnic w różnicach?

3
Przegląd statystyki w artykułach
Dla niektórych z nas papiery sędziowskie są częścią pracy. Uważając, że sędziując dokumenty dotyczące metodologii statystycznej, porady z innych dziedzin są dość przydatne, tj. Informatyka i matematyka . To pytanie dotyczy przeglądu częściej stosowanych prac statystycznych. Rozumiem przez to, że artykuł jest przekazywany do czasopisma niestatystycznego / matematycznego, a statystyka …
43 journals  referee 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.