Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Ocena przybliżonego rozkładu danych na podstawie histogramu
Załóżmy, że chcę sprawdzić, czy moje dane są wykładnicze na podstawie histogramu (tzn. Są przekrzywione w prawo). W zależności od sposobu grupowania lub binowania danych mogę uzyskać bardzo różne histogramy. Jeden zestaw histogramów sprawi, że dane będą miały charakter wykładniczy. Kolejny zestaw sprawi, że dane nie będą wykładnicze. Jak sprawić, …


2
Gradient Boosting Tree vs Random Forest
Zwiększanie drzewa gradientowego, jak zaproponował Friedman, wykorzystuje drzewa decyzyjne jako podstawowych uczniów. Zastanawiam się, czy powinniśmy uczynić podstawowe drzewo decyzyjne tak złożonym, jak to możliwe (w pełni rozwinięte) czy prostszym? Czy istnieje jakieś wyjaśnienie wyboru? Random Forest to kolejna metoda zespołowa, w której drzewa decyzyjne są podstawowymi uczniami. W oparciu …

3
Co jeśli resztki są normalnie rozłożone, ale y nie jest?
Mam dziwne pytanie. Załóżmy, że masz małą próbkę, w której zmienna zależna, którą zamierzasz przeanalizować za pomocą prostego modelu liniowego, jest mocno pochylona. Zatem zakładasz, że nie jest normalnie dystrybuowany, ponieważ spowodowałoby to normalną dystrybucję . Ale podczas obliczania wykresu QQ-Normal istnieją dowody, że reszty są zwykle rozkładane. Zatem każdy …

8
Wykrywanie danej twarzy w bazie danych zdjęć twarzy
Pracuję nad małym projektem z udziałem twarzy użytkowników Twittera za pośrednictwem ich zdjęć profilowych. Problem, z którym się spotkałem, to fakt, że po odfiltrowaniu wszystkich zdjęć oprócz tych, które są wyraźnymi zdjęciami portretowymi, niewielki, ale znaczny odsetek użytkowników Twittera używa zdjęcia Justina Biebera jako swojego profilu. Aby je odfiltrować, w …

6
Jak wyjaśniłbyś różnicę między korelacją a kowariancją?
W odpowiedzi na to pytanie, jak wyjaśniłbyś kowariancję komuś, kto rozumie tylko środek? , który dotyczy kwestii wyjaśniania kowariancji świeckim, przywołał podobne pytanie. Jak wyjaśnić statystykom różnicę między kowariancją a korelacją ? Wygląda na to, że oba odnoszą się do zmiany jednej zmiennej powiązanej z inną zmienną. Podobnie jak w …




4
Jaka jest reguła .632+ podczas ładowania?
Tutaj @gung odnosi się do reguły .632+. Szybkie wyszukiwanie w Google nie daje łatwej do zrozumienia odpowiedzi na pytanie, co oznacza ta reguła i do jakiego celu jest używana. Czy ktoś mógłby wyjaśnić zasadę .632+?
107 bootstrap 

6
Czy istnieje intuicyjna interpretacja
Dla danej macierzy danych (ze zmiennymi w kolumnach i punktami danych w wierszach) wydaje się, że A T A odgrywa ważną rolę w statystyce. Na przykład jest to ważna część analitycznego rozwiązania zwykłych najmniejszych kwadratów. Lub, w przypadku PCA, jego wektory własne są głównymi składnikami danych.ZAAAZAT.ZAATAA^TA Rozumiem, jak obliczyć , …



7
Dlaczego dokładność nie jest najlepszym miernikiem do oceny modeli klasyfikacji?
To jest ogólne pytanie, które zostało tutaj zadane pośrednio wiele razy, ale nie ma jednej wiarygodnej odpowiedzi. Byłoby wspaniale mieć szczegółową odpowiedź na to pytanie. Dokładność , odsetek poprawnych klasyfikacji wśród wszystkich klasyfikacji, jest bardzo prostą i bardzo „intuicyjną” miarą, ale może być słabą miarą w przypadku niezrównoważonych danych . …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.