Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


7
Dlaczego termin regularyzacji * jest dodawany * do funkcji kosztu (zamiast pomnożonego itp.)?
Ilekroć stosuje się regularyzację, jest ona często dodawana do funkcji kosztu, na przykład w poniższej funkcji kosztu. Ma to dla mnie intuicyjny sens, ponieważ minimalizuję funkcja kosztu oznacza minimalizację błędu (lewy element) i minimalizację wielkości współczynników (prawy element) w tym samym czasie (lub przynajmniej równoważenie dwóch minimalizacji).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta …

8
Co jest dobrym źródłem informacji na temat projektowania stołu?
Widziałem różne teoretyczne sposoby obróbki grafiki, takie jak gramatyka grafiki . Ale nie widziałem nic równoważnego w odniesieniu do tabel. Z czasem opracowałem nieformalny model dobrych praktyk w projektowaniu stołów. Chciałbym jednak zapewnić dobre referencje dla studentów. Instrukcja APA Style ma kilka wskazówek na temat projektowania tabeli, ale to tylko …
51 tables 


6
Jak określić najlepszy punkt odcięcia i jego przedział ufności za pomocą krzywej ROC w R?
Mam dane z testu, który można by wykorzystać do rozróżnienia komórek normalnych i nowotworowych. Zgodnie z krzywą ROC wygląda dobrze do tego celu (pole pod krzywą wynosi 0,9): Moje pytania to: Jak ustalić punkt odcięcia dla tego testu i przedział ufności, w którym odczyty należy oceniać jako niejednoznaczne? Jaki jest …

3
Statystyki i wnioskowanie przyczynowe?
W swoim artykule z 1984 r. „Statystyka i wnioskowanie przyczynowe” Paul Holland podniósł jedno z najbardziej podstawowych pytań w statystyce: Co model statystyczny może powiedzieć o związku przyczynowym? Doprowadziło to do jego motto: BRAK PRZYCZYN BEZ MANIPULACJI co podkreślało znaczenie ograniczeń wokół eksperymentów uwzględniających związek przyczynowy. Andrew Gelman mówi podobnie …
51 causality 




5
Czy losowy las jest algorytmem wzmacniającym?
Krótka definicja wzmocnienia : Czy zestaw słabych uczniów może stworzyć jednego silnego ucznia? Słaby uczeń jest zdefiniowany jako klasyfikator, który jest tylko nieznacznie skorelowany z prawdziwą klasyfikacją (może lepiej opisywać przykłady niż losowe zgadywanie). Krótka definicja lasu losowego : Losowe lasy wyrastają z wielu drzew klasyfikacyjnych. Aby sklasyfikować nowy obiekt …




4
Szybka regresja liniowa odporna na wartości odstające
Mam do czynienia z danymi liniowymi z wartościami odstającymi, z których niektóre są o 5 standardowych odchyleń od szacowanej linii regresji. Szukam techniki regresji liniowej, która zmniejsza wpływ tych punktów. Jak dotąd oszacowałem linię regresji ze wszystkimi danymi, a następnie odrzuciłem punkt danych z bardzo dużymi kwadratowymi resztkami (powiedzmy 10%) …

9
Czy ktoś zna jakieś dobre oprogramowanie open source do wizualizacji danych z bazy danych?
Ostatnio natknąłem się na Tableau i próbowałem wizualizować dane z bazy danych i pliku csv. Interfejs użytkownika umożliwia wizualizację danych czasowych i przestrzennych oraz błyskawiczne tworzenie wykresów. Takie narzędzie jest naprawdę przydatne, ponieważ umożliwia graficzną obserwację danych bez pisania kodu. Ponieważ istnieje wiele źródeł danych, z których muszę pobierać i …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.