Statystyka to naukowe podejście do wnioskowania indukcyjnego i przewidywania oparte na probabilistycznych modelach danych. W rozszerzeniu obejmuje projektowanie eksperymentów i ankiet w celu zebrania danych w tym celu.
Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …
Używam TensorFlow do eksperymentów głównie z sieciami neuronowymi. Chociaż przeprowadziłem już dość eksperymentów (problem XOR, MNIST, niektóre rzeczy związane z regresją ...), mam problem z wybraniem „właściwej” funkcji kosztu dla konkretnych problemów, ponieważ ogólnie można mnie uznać za początkującego. Przed przyjściem do TensorFlow kodowałem niektóre w pełni połączone MLP i …
Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych / internetowych, czułem się nieco nieodpowiedni w dwóch …
Mam ramkę danych pand z kilkoma wpisami i chcę obliczyć korelację między dochodami niektórych rodzajów sklepów. Istnieje wiele sklepów z danymi o dochodach, klasyfikacją obszaru działalności (teatr, sklepy odzieżowe, żywność ...) i innymi danymi. Próbowałem utworzyć nową ramkę danych i wstawić kolumnę z przychodami ze wszystkich rodzajów sklepów należących do …
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Jakie książki o nauce i matematyce stoją za nauką o danych? Wydaje się, że tak …
Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.
Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę …
Załóżmy, że zestaw luźno ustrukturyzowanych danych (np. Tabele internetowe / połączone otwarte dane), złożony z wielu źródeł danych. Nie ma wspólnego schematu, po którym następowałyby dane, a każde źródło może używać atrybutów synonimów do opisywania wartości (np. „Narodowość” vs. „urodzony w”). Moim celem jest znalezienie pewnych „ważnych” atrybutów, które w …
Jestem inżynierem informatyki bez doświadczenia w statystyce i zaawansowanej matematyce. Studiuję książkę Python Machine Learning autorstwa Raschki i Mirjalili, ale kiedy próbowałem zrozumieć matematykę uczenia maszynowego, nie byłem w stanie zrozumieć wspaniałej książki, którą znajomy sugeruje mi Elementy uczenia statystycznego . Czy znasz jakieś łatwiejsze statystyki i książki matematyczne do …
Strona Wikipedii cytująca „Elementy uczenia statystycznego” mówi: Zazwyczaj w przypadku problemu z klasyfikacją funkcji ⌊ √ppp Funkcje p ⌋są używane w każdym podziale.⌊ str-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Rozumiem, że jest to dość dobrze wykształcone przypuszczenie i prawdopodobnie zostało to potwierdzone dowodami empirycznymi, ale czy istnieją inne powody, dla których wybrałby pierwiastek kwadratowy? …
Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład, Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach …
Mam zestaw wyników testu A / B (jedna grupa kontrolna, jedna grupa cech), które nie pasują do rozkładu normalnego. W rzeczywistości rozkład bardziej przypomina rozkład Landaua. Uważam, że niezależny test t wymaga, aby próbki były co najmniej w przybliżeniu normalnie rozmieszczone, co zniechęca mnie do używania testu t jako ważnej …
Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?
Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.