Statystyki i duże zbiory danych

30

Jakie są powszechne grzechy statystyczne?

Jestem studentem psychologii, a ponieważ prowadzę coraz więcej niezależnych badań statystycznych, coraz bardziej zdumiewa mnie nieadekwatność mojego formalnego szkolenia. Zarówno doświadczenia osobiste, jak i z drugiej ręki sugerują, że niedostatek rygorystyczności statystycznej w szkoleniach licencjackich i magisterskich jest dość powszechny w psychologii. Jako taki, pomyślałem, że byłoby przydatne dla niezależnych …

227 fallacy

11

Czy jest jakiś powód, aby preferować AIC lub BIC nad drugim?

AIC i BIC są metodami oceny dopasowania modelu karanymi za liczbę oszacowanych parametrów. Jak rozumiem, BIC karze modele bardziej za wolne parametry niż AIC. Czy poza preferencjami opartymi na rygorystycznych kryteriach istnieją jeszcze inne powody, by preferować AIC zamiast BIC lub odwrotnie?

222 modeling aic cross-validation bic model-selection

5

Wymień wielkość partii a liczbę iteracji w celu wyszkolenia sieci neuronowej

Kiedy trenujesz sieć neuronową, jaką różnicę ma ustawienie: Wielkość partii z i liczby iteracjibzazaabbb w porównaniu do wielkości partii do i liczby iteracji doddodocrered gdziea b = c dzab=dore ab = cd ? Innymi słowy, zakładając, że trenujemy sieć neuronową z taką samą liczbą przykładów szkoleniowych, jak ustawić optymalny rozmiar …

221 neural-networks train

14

Jakie są różnice między analizą czynnikową a analizą głównych składników?

Wydaje się, że wiele używanych przeze mnie pakietów statystycznych łączy te dwa pojęcia razem. Zastanawiam się jednak, czy istnieją inne założenia lub „formalności” danych, które muszą być zgodne z prawdą, aby stosować je jedna nad drugą. Prawdziwy przykład byłby niezwykle przydatny.

214 pca factor-analysis

12

Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją?

Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją? Czy słusznie byłoby powiedzieć, że są to 4 pola próbujące rozwiązać bardzo podobne problemy, ale o różnych podejściach? Co dokładnie mają ze sobą wspólnego i czym się różnią? Jeśli istnieje między nimi jakaś hierarchia, co by to było? …

208 machine-learning data-mining

3

Jak się dowiedzieć, że problem uczenia maszynowego jest beznadziejny?

Wyobraź sobie standardowy scenariusz uczenia maszynowego: Masz do czynienia z dużym, wielowymiarowym zestawem danych i rozumiesz go dość niewyraźnie. To, co musisz zrobić, to przewidzieć jakąś zmienną na podstawie tego, co masz. Jak zwykle czyścisz dane, przeglądasz statystyki opisowe, uruchamiasz niektóre modele, weryfikujesz je krzyżowo itp., Ale po kilku próbach, …

207 machine-learning forecasting modeling model-selection forecastability

10

Jak wyjaśniłbyś kowariancję komuś, kto rozumie tylko średnią?

... zakładając, że jestem w stanie poszerzyć swoją wiedzę na temat wariancji w intuicyjny sposób (intuicyjnie rozumiem „wariancję” ) lub mówiąc: Jest to średnia odległość wartości danych od „średniej” - i ponieważ wariancja jest kwadratowa jednostki, bierzemy pierwiastek kwadratowy, aby utrzymać te same jednostki, co nazywa się odchyleniem standardowym. Załóżmy, …

207 variance covariance intuition

5

Którego „środka” użyć i kiedy?

Mamy więc średnią arytmetyczną (AM), średnią geometryczną (GM) i średnią harmoniczną (HM). Ich matematyczne sformułowanie jest również dobrze znane wraz ze związanymi z nimi stereotypowymi przykładami (np. Średnia harmoniczna i jej zastosowanie do problemów związanych z „prędkością”). Jednak zawsze mnie intrygowało pytanie: „jak zdecydować, który środek najlepiej zastosować w danym …

197 mean

8

Algorytmy automatycznego wyboru modelu

Chciałbym zaimplementować algorytm automatycznego wyboru modelu. Zastanawiam się nad regresją stopniową, ale wszystko się uda (musi to być jednak regresja liniowa). Mój problem polega na tym, że nie jestem w stanie znaleźć metodologii ani implementacji typu open source (budzę się w java). Metodologia, którą mam na myśli, mogłaby wyglądać następująco: …

193 references feature-selection model-selection aic stepwise-regression

30

Jaki jest najlepszy wprowadzający podręcznik statystyki bayesowskiej?

Jaki jest najlepszy podręcznik wprowadzający do statystyki bayesowskiej? Poproszę jedną książkę na odpowiedź.

192 bayesian references

12

Jak przekształcić dane nieujemne, w tym zera?

Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log⁡(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log⁡(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …

191 data-transformation large-data

4

Co oblicza warstwa ukryta w sieci neuronowej?

Jestem pewien, że wiele osób odpowie linkami „pozwól mi google go dla ciebie”, więc chcę powiedzieć, że próbowałem to rozgryźć, więc proszę wybacz mi brak zrozumienia tutaj, ale nie mogę zrozumieć, w jaki sposób praktyczne wdrożenie sieci neuronowej faktycznie działa. Rozumiem warstwę wejściową i jak normalizować dane, rozumiem również jednostkę …

187 machine-learning neural-networks nonlinear-regression

9

Jak podsumować dane według grupy w R? [Zamknięte]

Mam ramkę danych R taką jak ta: age group 1 23.0883 1 2 25.8344 1 3 29.4648 1 4 32.7858 2 5 33.6372 1 6 34.9350 1 7 35.2115 2 8 35.2115 2 9 35.2115 2 10 36.7803 1 ... Potrzebuję uzyskać ramkę danych w następującej formie: group mean sd …

181 r data-transformation

15

Co to jest naukowiec?

Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył tytuły pracy naukowca lub statystysty . Czy bycie …

181 terminology definition careers

4

Jaki jest rozmiar partii w sieci neuronowej?

Używam Python Keras packagedo sieci neuronowej. To jest link . Czy batch_sizejest równa liczbie próbek testowych? Z Wikipedii mamy tę informację: Jednak w innych przypadkach ocena gradientu sumy może wymagać kosztownej oceny gradientów ze wszystkich funkcji sumowania. Gdy zestaw treningowy jest ogromny i nie istnieją proste formuły, ocena sum gradientów …

174 neural-networks python terminology keras