Pytania otagowane jako statistics

Statystyka to naukowe podejście do wnioskowania indukcyjnego i przewidywania oparte na probabilistycznych modelach danych. W rozszerzeniu obejmuje projektowanie eksperymentów i ankiet w celu zebrania danych w tym celu.

1
Jak uzyskać korelację między dwiema zmiennymi jakościowymi a zmienną jakościową i zmienną ciągłą?
Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …

4
Sieci neuronowe: jakiej funkcji kosztu użyć?
Używam TensorFlow do eksperymentów głównie z sieciami neuronowymi. Chociaż przeprowadziłem już dość eksperymentów (problem XOR, MNIST, niektóre rzeczy związane z regresją ...), mam problem z wybraniem „właściwej” funkcji kosztu dla konkretnych problemów, ponieważ ogólnie można mnie uznać za początkującego. Przed przyjściem do TensorFlow kodowałem niektóre w pełni połączone MLP i …

11
Data Science w C (lub C ++)
Jestem R programistą języka. Należę również do grupy osób, które są uważane za naukowców danych, ale wywodzą się z dyscyplin naukowych innych niż CS. Działa to dobrze w mojej roli naukowca danych, jednak rozpoczynając karierę Ri mając podstawową znajomość innych języków skryptowych / internetowych, czułem się nieco nieodpowiedni w dwóch …

3
Obliczanie i wizualizacja macierzy korelacji z pandami
Mam ramkę danych pand z kilkoma wpisami i chcę obliczyć korelację między dochodami niektórych rodzajów sklepów. Istnieje wiele sklepów z danymi o dochodach, klasyfikacją obszaru działalności (teatr, sklepy odzieżowe, żywność ...) i innymi danymi. Próbowałem utworzyć nową ramkę danych i wstawić kolumnę z przychodami ze wszystkich rodzajów sklepów należących do …

4
Książki o „Nauce” w Data Science? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Jakie książki o nauce i matematyce stoją za nauką o danych? Wydaje się, że tak …

9
Jakaś konsola Online R?
Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.
24 r  statistics 

4
Jakiego modelu statystycznego powinienem użyć do analizy prawdopodobieństwa, że ​​pojedyncze zdarzenie wpłynęło na dane podłużne
Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że ​​określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę …

4
Jak określić ważne atrybuty?
Załóżmy, że zestaw luźno ustrukturyzowanych danych (np. Tabele internetowe / połączone otwarte dane), złożony z wielu źródeł danych. Nie ma wspólnego schematu, po którym następowałyby dane, a każde źródło może używać atrybutów synonimów do opisywania wartości (np. „Narodowość” vs. „urodzony w”). Moim celem jest znalezienie pewnych „ważnych” atrybutów, które w …

5
Początkowe książki matematyczne do uczenia maszynowego
Jestem inżynierem informatyki bez doświadczenia w statystyce i zaawansowanej matematyce. Studiuję książkę Python Machine Learning autorstwa Raschki i Mirjalili, ale kiedy próbowałem zrozumieć matematykę uczenia maszynowego, nie byłem w stanie zrozumieć wspaniałej książki, którą znajomy sugeruje mi Elementy uczenia statystycznego . Czy znasz jakieś łatwiejsze statystyki i książki matematyczne do …

1
Ile funkcji próbkować przy użyciu losowych lasów
Strona Wikipedii cytująca „Elementy uczenia statystycznego” mówi: Zazwyczaj w przypadku problemu z klasyfikacją funkcji ⌊ √ppp Funkcje p ⌋są używane w każdym podziale.⌊ str-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Rozumiem, że jest to dość dobrze wykształcone przypuszczenie i prawdopodobnie zostało to potwierdzone dowodami empirycznymi, ale czy istnieją inne powody, dla których wybrałby pierwiastek kwadratowy? …

2
Dane wielowymiarowe: jakie przydatne techniki należy znać?
Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład, Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach …


3
Kiedy wartości p są zwodnicze?
Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?

6
Zestawy danych rozumiejące najlepsze praktyki
Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …

3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.