Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Testy danych data.table nie były aktualizowane od 2014 roku. Słyszałem, że gdzieś Pandasjest teraz szybciej niż data.table. Czy to prawda? Czy ktoś zrobił jakieś testy porównawcze? Nigdy wcześniej nie korzystałem z Pythona, ale rozważałbym zmianę, jeśli pandasmożna pokonać data.table?
Podział walidacji w funkcji dopasowania modelu sekwencyjnego Keras jest udokumentowany w następujący sposób na https://keras.io/models/sequential/ : validation_split: Zmienna między 0 a 1. Część danych treningowych do wykorzystania jako dane walidacyjne. Model oddzieli tę część danych treningowych, nie będzie na nich trenował i oceni utratę oraz wszelkie metryki modelu na tych …
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Mam dwa pytania dotyczące drzew decyzyjnych: Jeśli mamy ciągły atrybut, jak wybrać wartość podziału? Przykład: Wiek = (20,29,50,40 ....) Wyobrazić, że mają ciągłą atrybutu , które mają wartości R . Jak napisać algorytm, który znajdzie punkt podziału v , aby po podzieleniu f przez v uzyskaliśmy minimalne wzmocnienie dla f …
Pracuję w biurze, w którym SQL Server jest podstawą wszystkiego, co robimy, od przetwarzania danych przez czyszczenie po mung. Mój kolega specjalizuje się w pisaniu złożonych funkcji i procedur przechowywanych w celu metodycznego przetwarzania przychodzących danych, aby można je było znormalizować i uruchomić w raportach, wizualizacjach i projektach analitycznych. Przed …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …
Mam zestaw danych z 330 próbkami i 27 funkcjami dla każdej próbki, z problemem klasy binarnej dla regresji logistycznej. Zgodnie z „regułą, jeśli dziesięć” potrzebuję co najmniej 10 zdarzeń, aby każda funkcja mogła zostać uwzględniona. Chociaż mam niezrównoważony zestaw danych, z 20% klasy dodatniej i 80% klasy ujemnej. To daje …
Próbuję zrozumieć, jak w pełni zrozumieć proces decyzyjny modelu klasyfikacji drzewa decyzyjnego zbudowanego za pomocą sklearn. Dwa główne aspekty, na które patrzę, to reprezentacja drzewa grafviz oraz lista ważniejszych cech. To, czego nie rozumiem, to sposób, w jaki znaczenie funkcji jest określane w kontekście drzewa. Na przykład, oto moja lista …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.