Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

29
Przykłady nauczania: Korelacja nie oznacza związku przyczynowego
Istnieje stare powiedzenie: „Korelacja nie oznacza związku przyczynowego”. Kiedy uczę, zwykle ilustruję ten punkt w następujących standardowych przykładach: liczba bocianów i wskaźnik urodzeń w Danii; liczba księży w Ameryce i alkoholizm; na początku XX wieku zauważono silną korelację między „liczbą radiotelefonów” a „liczbą osób przebywających w zakładach dla obłąkanych” i …

5
Co to jest regularyzacja zwykłym angielskim?
W przeciwieństwie do innych artykułów, znalazłem wpis w Wikipedii dla tego tematu nieczytelny dla osoby niebędącej matematyką (jak ja). Zrozumiałem podstawową ideę, że faworyzujesz modele o mniejszej liczbie zasad. Nie rozumiem, jak przejść z zestawu reguł do „wyniku regularyzacji”, którego można użyć do sortowania modeli od najmniejszego do najbardziej nadmiernego. …

6
Po co używać opadania gradientu do regresji liniowej, gdy dostępne jest rozwiązanie matematyczne w formie zamkniętej?
Biorę kursy uczenia maszynowego online i dowiedziałem się o spadku gradientu do obliczania optymalnych wartości w hipotezie. h(x) = B0 + B1X dlaczego musimy używać zejścia gradientu, jeśli możemy łatwo znaleźć wartości za pomocą poniższej formuły? To też wygląda na proste i łatwe. ale GD potrzebuje wielu iteracji, aby uzyskać …


4
Dziennik psychologiczny zakazał wartości p i przedziałów ufności; czy rzeczywiście mądrze jest przestać ich używać?
W dniu 25 lutego 2015 r. Czasopismo Basic and Applied Social Psychology opublikowało artykuł wstępny zakazujący wartości i przedziałów ufności we wszystkich przyszłych artykułach.ppp Mówią w szczególności (formatowanie i podkreślanie są moje): [...] przed publikacją autorzy będą musieli usunąć wszelkie pozostałości z NHSTP [procedura testowania znaczenia hipotezy zerowej] ( wartości …

3
Co to jest „ograniczone maksymalne prawdopodobieństwo” i kiedy należy go stosować?
W streszczeniu tego artykułu przeczytałem, że: „Procedura maksymalnego prawdopodobieństwa (ML) Hartley aud Rao zostaje zmodyfikowana poprzez dostosowanie transformacji z Patterson i Thompson, która dzieli prawdopodobieństwo na normalność na dwie części, z których jedna jest wolna od ustalonych efektów. Maksymalizacja tej części daje tak zwane ograniczone maksymalne prawdopodobieństwo (REML) estymatory. ” …

6
Model do przewidywania liczby wyświetleń Youtube stylu Gangnam
Teledysk PSY „Gangnam style” jest popularny, po nieco ponad 2 miesiącach ma około 540 milionów widzów. Nauczyłem się tego od moich czternastu dzieci podczas obiadu w zeszłym tygodniu i wkrótce dyskusja poszła w kierunku, czy można było przewidzieć, ilu widzów będzie za 10-12 dni i kiedy (/ jeśli) piosenka przejdzie …
73 modeling  web 

11
Praca w eksploracji danych bez doktoratu
Od dłuższego czasu interesuję się eksploracją danych i uczeniem maszynowym , częściowo dlatego, że specjalizowałem się w tej dziedzinie w szkole, ale także dlatego, że jestem o wiele bardziej podekscytowany próbą rozwiązania problemów, które wymagają więcej przemyślenia niż tylko programowania wiedza i którego rozwiązanie może mieć wiele postaci. Nie mam …

2
Metody ponownego próbkowania / symulacji: monte carlo, bootstrapping, jackknifing, cross-validation, testy randomizacji i testy permutacji
Próbuję zrozumieć różnicę między różnymi metodami ponownego próbkowania (symulacja Monte Carlo, ładowanie parametryczne, ładowanie nieparametryczne, podnoszenie, walidacja krzyżowa, testy randomizacji i testy permutacji) i ich implementacja w moim kontekście przy użyciu R. Powiedzmy, że mam następującą sytuację - chcę wykonać ANOVA ze zmienną Y ( Yvar) i zmienną X ( …



6
Wybór metody grupowania
Używając analizy skupień w zbiorze danych do grupowania podobnych przypadków, należy wybierać spośród wielu metod grupowania i miar odległości. Czasami jeden wybór może wpływać na drugi, ale istnieje wiele możliwych kombinacji metod. Czy ktoś ma jakieś zalecenia dotyczące wyboru różnych algorytmów / metod grupowania i pomiarów odległości ? W jaki …


6
Czy jest jakiś dobry powód, aby używać PCA zamiast EFA? Czy PCA może również zastąpić analizę czynnikową?
W niektórych dyscyplinach PCA (analiza głównego składnika) jest systematycznie stosowana bez żadnego uzasadnienia, a PCA i EFA (analiza czynników eksploracyjnych) są uważane za synonimy. Dlatego ostatnio użyłem PCA do analizy wyników badania walidacji skali (21 pozycji na 7-punktowej skali Likerta, zakładając, że składają się 3 czynniki po 7 pozycji każdy), …

4
Dlaczego sieci neuronowe stają się głębsze, ale nie szersze?
W ostatnich latach splotowe sieci neuronowe (lub ogólnie głębokie sieci neuronowe) stały się coraz głębsze, a najnowocześniejsze sieci przechodzą z 7 warstw ( AlexNet ) do 1000 warstw ( sieci resztkowych) na przestrzeni 4 lat Przyczyną wzrostu wydajności z głębszej sieci jest to, że można się nauczyć bardziej złożonej, nieliniowej …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.