Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

1
Regresja: przekształcanie zmiennych
Czy podczas transformowania zmiennych musisz używać tej samej transformacji? Na przykład mogę wybrać i wybrać zmienne transformowane, jak w: Niech będzie wiekiem, długością zatrudnienia, długością pobytu i dochodem.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) A może musisz być spójny ze swoimi transformacjami i używać tego samego? Jak w: Y …


4
Jakie odniesienia należy przytoczyć, aby poprzeć użycie 30 jako wystarczająco dużej próbki?
Wielokrotnie czytałem / słyszałem, że wielkość próbki co najmniej 30 jednostek jest uważana za „dużą próbkę” (założenia dotyczące normalności środków zwykle w przybliżeniu zachowują się z powodu CLT, ...). Dlatego w moich eksperymentach zwykle generuję próbki 30 jednostek. Czy możesz podać mi odniesienie, które należy zacytować, gdy używasz próbki o …


13
Dlaczego średni wiek jest lepszą statystyką niż średni wiek?
Jeśli spojrzysz na Wolfram Alpha Lub ta strona w Wikipedii Lista krajów według mediany wieku Wyraźnie mediana wydaje się być statystyką wyboru, jeśli chodzi o wiek. Nie jestem w stanie wyjaśnić sobie, dlaczego średnia arytmetyczna byłaby gorszą statystyką. Dlaczego tak jest Pierwotnie opublikowane tutaj, ponieważ nie wiedziałem, że ta strona …
41 mean  median 


1
Jak interpretować miary błędów?
Korzystam z klasyfikowania w Weka dla określonego zestawu danych i zauważyłem, że jeśli próbuję przewidzieć wartość nominalną, dane wyjściowe wyraźnie pokazują prawidłowe i niepoprawne wartości. Jednak teraz uruchamiam go dla atrybutu liczbowego, a wynikiem jest: Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error …

5
Praktyczna optymalizacja hiperparametrów: wyszukiwanie losowe vs. siatka
Obecnie przechodzę przez Losowe wyszukiwanie Bengio i Bergsta w celu optymalizacji hiperparametrów [1], w którym autorzy twierdzą, że losowe wyszukiwanie jest bardziej wydajne niż wyszukiwanie siatkowe w osiąganiu w przybliżeniu jednakowej wydajności. Moje pytanie brzmi: czy ludzie tutaj zgadzają się z tym twierdzeniem? W swojej pracy korzystałem z wyszukiwania siatki …


9
Jak interpretować wartości pomiaru F?
Chciałbym wiedzieć, jak interpretować różnicę wartości miary. Wiem, że miara f jest zrównoważonym środkiem między precyzją a pamięcią, ale pytam o praktyczne znaczenie różnicy w miarach F. Na przykład, jeśli klasyfikator C1 ma dokładność 0,4, a inny klasyfikator C2 dokładność 0,8, wówczas możemy powiedzieć, że C2 poprawnie sklasyfikował podwójność przykładów …

5
Czym różnią się oceny skłonności od dodawania zmiennych towarzyszących w regresji i kiedy są one preferowane w stosunku do tej ostatniej?
Przyznaję, że jestem stosunkowo nowy w ocenach skłonności i analizie przyczynowej. Jedną z rzeczy, która nie jest dla mnie oczywista jako nowicjusz, jest to, że „równoważenie” za pomocą wyników skłonności różni się matematycznie od tego, co dzieje się, gdy dodamy zmienne towarzyszące w regresji? Czym różni się operacja i dlaczego …

1
W jaki sposób softmax_cross_entropy_with_logits różni się od softmax_cross_entropy_with_logits_v2?
W szczególności zastanawiam się nad tym stwierdzeniem: Przyszłe główne wersje TensorFlow domyślnie umożliwią przepływ gradientów do danych wejściowych na etykietach. Który jest wyświetlany, gdy używam tf.nn.softmax_cross_entropy_with_logits. W tym samym komunikacie zachęca mnie do przyjrzenia się tf.nn.softmax_cross_entropy_with_logits_v2. Przejrzałem dokumentację, ale stwierdza tylko, że dla tf.nn.softmax_cross_entropy_with_logits_v2: Propagacja wstąpi na logi i etykiety. …

6
Losowy las - jak radzić sobie z przeuczeniem
Mam wykształcenie informatyczne, ale staram się uczyć danych, rozwiązując problemy w Internecie. Pracowałem nad tym problemem przez ostatnie kilka tygodni (około 900 wierszy i 10 funkcji). Początkowo korzystałem z regresji logistycznej, ale teraz przerzuciłem się na losowe lasy. Kiedy uruchamiam mój przypadkowy model lasu na danych treningowych, otrzymuję naprawdę wysokie …

3
Jak obliczyć
Załóżmy, że ϕ(⋅)ϕ(⋅)\phi(\cdot) i Φ(⋅)Φ(⋅)\Phi(\cdot) są funkcją gęstości i funkcją rozkładu standardowego rozkładu normalnego. Jak obliczyć całkę: ∫∞−∞Φ(w−ab)ϕ(w)dw∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.