Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Mam ramkę danych pand z mnóstwem kategorycznych kolumn, które planuję wykorzystać w drzewie decyzyjnym w scikit-learn. Muszę przekonwertować je na wartości liczbowe (nie jeden gorący wektor). Mogę to zrobić za pomocą LabelEncoder z scikit-learn. Problem polega na tym, że jest ich zbyt wiele i nie chcę ich konwertować ręcznie. Jaki …
Rozpoczynam projekt, w którym zadaniem jest identyfikacja typów tenisówek na podstawie zdjęć. Obecnie czytam implementacje TensorFlow i Torch . Moje pytanie brzmi: ile zdjęć na klasę jest wymaganych, aby osiągnąć rozsądną klasyfikację?
Mam problem z klasyfikacją bardzo niezrównoważonych danych. Przeczytałem, że nadmierne i niepełne próbkowanie, a także zmiana kosztu niedostatecznie reprezentowanych wyników kategorycznych doprowadzą do lepszego dopasowania. Zanim to nastąpi, tensorflow klasyfikuje każde wejście jako grupę większościową (i zyskuje ponad 90% dokładności, jakkolwiek to bez znaczenia). Zauważyłem, że log odwrotnej wartości procentowej …
Zastanawiałem się nad możliwością klasyfikacji dźwięku (na przykład dźwięków zwierząt) za pomocą spektrogramów. Chodzi o to, aby użyć głębokich splotowych sieci neuronowych do rozpoznania segmentów w spektrogramie i uzyskania jednej (lub wielu) etykiet klasy. To nie jest nowy pomysł (patrz na przykład klasyfikacja dźwięku wieloryba lub rozpoznawanie stylu muzyki ). …
tło: w xgboost z ttt próbach iteracji w celu dopasowania do drzewa fatfatf_t w stosunku do wszystkich nnn przykładach minimalizuje obiektywnego: ∑i = 1n[ gjafat( xja) + 12)hjafa2)t( xja) ]∑ja=1n[soljafat(xja)+12)hjafat2)(xja)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] gdzie są pochodnymi pierwszego i drugiego rzędu w stosunku do naszego poprzedniego najlepszego oszacowania (z iteracji ):r T …
Znam kogoś, kto pracuje nad projektem, który obejmuje przyjmowanie plików danych bez względu na kolumny lub typy danych. Zadanie polega na pobraniu pliku z dowolną liczbą kolumn i różnych typów danych oraz wyjściowych statystyk podsumowujących dane liczbowe. Nie ma jednak pewności, jak dynamicznie przypisywać typy danych do niektórych danych liczbowych. …
Mam kreślone na importances cechą w lasy losowe z scikit-learn . W jaki sposób mogę wykorzystać informacje o działce do usunięcia funkcji w celu poprawy prognozowania przy użyciu losowych lasów? Tj. Jak na podstawie informacji o działce stwierdzić, czy funkcja jest bezużyteczna, a nawet gorzej obniża wydajność losowych lasów? Fabuła …
Od jakiegoś czasu pracuję w NLTK, używając Pythona. Problem, z którym się zmagam, polega na tym, że nie ma pomocy w szkoleniu NER w NLTK z moimi niestandardowymi danymi. Wykorzystali MaxEnt i wyszkolili go na korpusie ACE. Dużo szukałem w Internecie, ale nie mogłem znaleźć sposobu, który mógłby posłużyć do …
Czy ktoś wie, czy można zaimportować duży zestaw danych do Amazon S3 z adresu URL? Zasadniczo chcę uniknąć pobierania dużego pliku, a następnie ponownego ładowania go do S3 za pośrednictwem portalu internetowego. Chcę tylko podać adres URL pobierania do S3 i poczekać, aż ściągną go do swojego systemu plików. Wydaje …
Mam zmienną ciągłą, próbkowaną przez okres roku w nieregularnych odstępach czasu. Niektóre dni mają więcej niż jedną obserwację na godzinę, podczas gdy inne okresy nie mają nic przez kilka dni. To sprawia, że szczególnie trudno jest wykryć wzorce w szeregach czasowych, ponieważ niektóre miesiące (na przykład październik) są bardzo próbkowane, …
Rozważ strumień zawierający krotki (user, new_score) reprezentujące wyniki użytkowników w grze online. Strumień może mieć 100-1 000 nowych elementów na sekundę. Gra ma od 200 000 do 300 000 unikalnych graczy. Chciałbym mieć kilka stałych zapytań, takich jak: Którzy gracze opublikowali więcej niż x wyników w przesuwanym oknie trwającym godzinę …
Szukam biblioteki / narzędzia do wizualizacji zmian w sieci społecznościowej po dodaniu do niej nowych węzłów / krawędzi. Jednym z istniejących rozwiązań jest SoNIA: Social Network Image Animator . Pozwala ci robić filmy takie jak ten . Dokumentacja SoNIA mówi, że obecnie jest zepsuta, a poza tym wolałbym zamiast tego …
Na przykład podczas wyszukiwania czegoś w Google wyniki niemal natychmiast wracają. Rozumiem, że Google sortuje i indeksuje strony za pomocą algorytmów itp., Ale wyobrażam sobie, że niemożliwe jest indeksowanie wyników każdego możliwego zapytania (a wyniki są spersonalizowane, co czyni to jeszcze bardziej niewykonalnym)? Co więcej, czy opóźnienie sprzętowe w sprzęcie …
Do tej pory istnieje wiele interesujących aplikacji do głębokiego uczenia się w zakresie widzenia komputerowego lub przetwarzania języka naturalnego. Jak to jest w innych bardziej tradycyjnych dziedzinach? Na przykład mam tradycyjne zmienne społeczno-demograficzne oraz być może wiele pomiarów laboratoryjnych i chcę przewidzieć pewną chorobę. Czy byłaby to aplikacja do głębokiego …
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.