Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

30
Jakie są powszechne grzechy statystyczne?
Jestem studentem psychologii, a ponieważ prowadzę coraz więcej niezależnych badań statystycznych, coraz bardziej zdumiewa mnie nieadekwatność mojego formalnego szkolenia. Zarówno doświadczenia osobiste, jak i z drugiej ręki sugerują, że niedostatek rygorystyczności statystycznej w szkoleniach licencjackich i magisterskich jest dość powszechny w psychologii. Jako taki, pomyślałem, że byłoby przydatne dla niezależnych …
227 fallacy 




12
Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją?
Jaka jest różnica między eksploracją danych, statystykami, uczeniem maszynowym i sztuczną inteligencją? Czy słusznie byłoby powiedzieć, że są to 4 pola próbujące rozwiązać bardzo podobne problemy, ale o różnych podejściach? Co dokładnie mają ze sobą wspólnego i czym się różnią? Jeśli istnieje między nimi jakaś hierarchia, co by to było? …

3
Jak się dowiedzieć, że problem uczenia maszynowego jest beznadziejny?
Wyobraź sobie standardowy scenariusz uczenia maszynowego: Masz do czynienia z dużym, wielowymiarowym zestawem danych i rozumiesz go dość niewyraźnie. To, co musisz zrobić, to przewidzieć jakąś zmienną na podstawie tego, co masz. Jak zwykle czyścisz dane, przeglądasz statystyki opisowe, uruchamiasz niektóre modele, weryfikujesz je krzyżowo itp., Ale po kilku próbach, …

10
Jak wyjaśniłbyś kowariancję komuś, kto rozumie tylko średnią?
... zakładając, że jestem w stanie poszerzyć swoją wiedzę na temat wariancji w intuicyjny sposób (intuicyjnie rozumiem „wariancję” ) lub mówiąc: Jest to średnia odległość wartości danych od „średniej” - i ponieważ wariancja jest kwadratowa jednostki, bierzemy pierwiastek kwadratowy, aby utrzymać te same jednostki, co nazywa się odchyleniem standardowym. Załóżmy, …

5
Którego „środka” użyć i kiedy?
Mamy więc średnią arytmetyczną (AM), średnią geometryczną (GM) i średnią harmoniczną (HM). Ich matematyczne sformułowanie jest również dobrze znane wraz ze związanymi z nimi stereotypowymi przykładami (np. Średnia harmoniczna i jej zastosowanie do problemów związanych z „prędkością”). Jednak zawsze mnie intrygowało pytanie: „jak zdecydować, który środek najlepiej zastosować w danym …
197 mean 

8
Algorytmy automatycznego wyboru modelu
Chciałbym zaimplementować algorytm automatycznego wyboru modelu. Zastanawiam się nad regresją stopniową, ale wszystko się uda (musi to być jednak regresja liniowa). Mój problem polega na tym, że nie jestem w stanie znaleźć metodologii ani implementacji typu open source (budzę się w java). Metodologia, którą mam na myśli, mogłaby wyglądać następująco: …


12
Jak przekształcić dane nieujemne, w tym zera?
Jeśli mam bardzo wypaczone pozytywne dane, często biorę dzienniki. Ale co mam zrobić z mocno wypaczonymi nieujemnymi danymi, które zawierają zera? Widziałem dwie zastosowane transformacje: log( x + 1 )log⁡(x+1)\log(x+1) który ma ciekawą funkcję, która 0 odwzorowuje na 0. log( x + c )log⁡(x+c)\log(x+c) gdzie c jest albo oszacowane, albo …

4
Co oblicza warstwa ukryta w sieci neuronowej?
Jestem pewien, że wiele osób odpowie linkami „pozwól mi google go dla ciebie”, więc chcę powiedzieć, że próbowałem to rozgryźć, więc proszę wybacz mi brak zrozumienia tutaj, ale nie mogę zrozumieć, w jaki sposób praktyczne wdrożenie sieci neuronowej faktycznie działa. Rozumiem warstwę wejściową i jak normalizować dane, rozumiem również jednostkę …


15
Co to jest naukowiec?
Po niedawnym ukończeniu studiów doktoranckich z zakresu statystyki przez ostatnie kilka miesięcy zacząłem szukać pracy w dziedzinie statystyki. Prawie każda firma, którą rozważałem, miała ofertę pracy o tytule „ Data Scientist ”. W rzeczywistości wydawało się, że dawno minęły czasy, gdy zobaczył tytuły pracy naukowca lub statystysty . Czy bycie …

4
Jaki jest rozmiar partii w sieci neuronowej?
Używam Python Keras packagedo sieci neuronowej. To jest link . Czy batch_sizejest równa liczbie próbek testowych? Z Wikipedii mamy tę informację: Jednak w innych przypadkach ocena gradientu sumy może wymagać kosztownej oceny gradientów ze wszystkich funkcji sumowania. Gdy zestaw treningowy jest ogromny i nie istnieją proste formuły, ocena sum gradientów …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.