Właśnie zaczynam opracowywać aplikację do uczenia maszynowego do celów akademickich. Obecnie używam R i trenuję się w tym. Jednak w wielu miejscach widziałem ludzi używających Pythona . Z czego korzystają ludzie w środowisku akademickim i przemyśle i jakie jest zalecenie?
Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych …
R ma wiele bibliotek, które są przeznaczone do analizy danych (np. JAGS, BŁĘDY, ARULES itp.) I jest wspomniany w popularnych podręcznikach, takich jak: J.Krusche, Doing Bayesian Data Analysis; B.Lantz, „Uczenie maszynowe z R”. Widziałem wytyczną 5 TB, aby zestaw danych uważać za Big Data. Moje pytanie brzmi: czy R jest …
Używam RStudio do programowania R. Pamiętam o solidnych IDE z innych stosów technologii, takich jak Visual Studio lub Eclipse. Mam dwa pytania: Jakie inne IDE są używane niż RStudio (proszę rozważyć ich krótki opis). Czy któryś z nich ma zauważalną przewagę nad RStudio? Mam na myśli przede wszystkim funkcje debugowania …
Z mojego ograniczonego wglądu w naukę danych przy użyciu R zdałem sobie sprawę, że czyszczenie złych danych jest bardzo ważną częścią przygotowywania danych do analizy. Czy są jakieś najlepsze praktyki lub procesy czyszczenia danych przed ich przetwarzaniem? Jeśli tak, to czy istnieją jakieś automatyczne lub półautomatyczne narzędzia, które wdrażają niektóre …
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
XGBoost wykonało świetną robotę, jeśli chodzi o radzenie sobie zarówno z kategorycznymi, jak i ciągłymi zmiennymi zależnymi. Ale jak wybrać zoptymalizowane parametry dla problemu XGBoost? Oto jak zastosowałem parametry do ostatniego problemu Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = …
Ponieważ dostępnych jest wiele narzędzi do zadań związanych z analizą danych, a instalacja wszystkiego i zbudowanie idealnego systemu jest uciążliwa. Czy istnieje obraz systemu Linux / Mac OS z zainstalowanymi i dostępnymi narzędziami do nauki danych w języku Python, R i innych wersjach open source? Idealny będzie system Ubuntu lub …
Szukam konsoli online dla języka R. Podobnie jak w przypadku pisania kodu, serwer powinien się uruchomić i przekazać mi dane wyjściowe. Podobne do strony Datacamp.
Pracuję nad wyzwaniem Kaggle, w którym niektóre zmienne są reprezentowane przez wiersze zamiast kolumn (zakłócenia sieci Telstra). Obecnie szukam odpowiednika funkcji gromadzenia (), separacji () i rozprzestrzeniania (), które można znaleźć w narzędziu R tidyr.
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale rozważałbym zmianę, jeśli pandasmożna pokonać data.table?
Muszę generować okresowe (dzienne, miesięczne) raporty pulpitu nawigacyjnego analityki internetowej. Będą one statyczne i nie będą wymagały interakcji, więc wyobraź sobie plik PDF jako docelowy wynik. Raporty będą mieszać tabele i wykresy (głównie wykresy przebiegu w czasie i wykresy punktowe utworzone za pomocą ggplot2). Pomyśl o pulpitach nawigacyjnych w stylu …
Próbuję zbudować system rekomendacji przy użyciu filtrowania grupowego. Mam zwykłe [user, movie, rating]informacje. Chciałbym włączyć dodatkową funkcję, taką jak „język” lub „czas trwania filmu”. Nie jestem pewien, jakich technik mógłbym użyć w przypadku takiego problemu. Proszę sugerować referencje lub pakiety w Pythonie / R.
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Poniższa funkcja przewidywania podaje również wartości -ve, więc nie może to być prawdopodobieństwo. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) I google i próbowałem, pred_s <- predict(bst, x_mat_s2,type="response") ale to nie działało. Pytanie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.