Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


7
Odchylenie i wariancja w walidacji krzyżowej z pominięciem jednego wyjścia a K-krotnie
Jak różnią się różne metody walidacji krzyżowej pod względem wariancji modelu i stronniczości? Moje pytanie jest częściowo motywowane tym wątkiem: optymalna liczba fałdów w krzyżowej walidacji - fold: czy pominięcie CV zawsze jest najlepszym wyborem? KKKK. Odpowiedź sugeruje, że modele wyuczone z krzyżową walidacją typu „pomijaj jeden” mają wyższą wariancję …


14
Dlaczego solidne (i odporne) statystyki nie zastąpiły klasycznych technik?
Przy rozwiązywaniu problemów biznesowych z wykorzystaniem danych często zdarza się, że co najmniej jedno kluczowe założenie, że klasyczne statystyki poniżej szpilek są nieprawidłowe. Przez większość czasu nikt nie zadaje sobie trudu, aby sprawdzić te założenia, więc tak naprawdę nigdy nie wiadomo. Na przykład, że tak wiele typowych wskaźników internetowych jest …

8
Linia najlepszego dopasowania nie wygląda na dobre dopasowanie. Dlaczego?
Spójrz na ten wykres Excela: Linia najlepszego dopasowania „zdrowego rozsądku” byłaby prawie pionową linią przechodzącą przez środek punktów (edytowaną ręcznie na czerwono). Jednak liniowa linia trendu ustalona przez Excel jest pokazaną ukośną czarną linią. Dlaczego Excel stworzył coś, co (dla ludzkiego oka) wydaje się błędne? Jak mogę stworzyć linię najlepszego …


5
Co oznacza „rozwiązanie zamknięte”?
Dość często spotykam się z terminem „rozwiązanie w formie zamkniętej”. Co oznacza rozwiązanie w formie zamkniętej? W jaki sposób można ustalić, czy istnieje rozwiązanie bliskie dla danego problemu? Przeszukując online znalazłem pewne informacje, ale nic w kontekście opracowania statystycznego lub probabilistycznego modelu / rozwiązania. Bardzo dobrze rozumiem regresję, więc jeśli …




3
Czy niezrównoważona próbka ma znaczenie podczas regresji logistycznej?
Ok, więc myślę, że mam wystarczająco przyzwoitą próbkę, biorąc pod uwagę ogólną zasadę 20: 1: dość dużą próbkę (N = 374) dla łącznie 7 potencjalnych zmiennych predykcyjnych. Mój problem jest następujący: bez względu na to, jakiego zestawu zmiennych predykcyjnych używam, klasyfikacje nigdy nie są lepsze niż specyficzność 100% i czułość …


6
Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze od częstych przedziałów ufności
Ostatnie pytanie dotyczące różnicy między zaufaniem a wiarygodnymi przedziałami skłoniło mnie do ponownego przeczytania artykułu Edwina Jaynesa na ten temat: Jaynes, ET, 1976. „Confidence Intervals vs. Bayesian Intervals”, w: Podstawach teorii prawdopodobieństwa, wnioskowania statystycznego i statystycznych teorii nauki, WL Harper i CA Hooker (red.), D. Reidel, Dordrecht, str. 175; ( …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.