Działanie, które poszukuje wzorców w dużych, złożonych zestawach danych. Zazwyczaj kładzie nacisk na techniki algorytmiczne, ale może również obejmować dowolny zestaw powiązanych umiejętności, aplikacji lub metodologii z tym celem.
Mój zestaw danych zawiera szereg atrybutów liczbowych i jeden kategoryczny. Powiedzieć NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, gdzie CategoricalAttrzajmuje jedną z trzech możliwych wartości: CategoricalAttrValue1, CategoricalAttrValue2lub CategoricalAttrValue3. Używam domyślnej implementacji algorytmu klastrowania k-średnich dla Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Działa tylko z danymi numerycznymi. Więc moje pytanie: czy poprawne jest podzielenie atrybutu kategorycznego …
Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …
To pytanie jest odpowiedzią na komentarz, który widziałem na inne pytanie. Komentarz dotyczył programu szkolenia Machine Learning na Coursera, podobnie jak „SVM nie są obecnie tak często używane”. Właśnie ukończyłem odpowiednie wykłady i rozumiem SVM, ponieważ są one solidnym i wydajnym algorytmem uczenia się do klasyfikacji oraz że podczas korzystania …
Kiedy mówię „dokument”, mam na myśli strony internetowe, takie jak artykuły z Wikipedii i wiadomości. Wolę odpowiedzi podające albo waniliowe leksykalne wskaźniki odległości, albo najnowocześniejsze semantyczne mierniki odległości, z silniejszą preferencją dla tych ostatnich.
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …
Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …
Nie byłem pewien kilku pojęć: XGBoost przekształca słabych uczniów w silnych uczniów. Jaka jest zaleta robienia tego? Łączenie wielu słabych uczniów zamiast korzystania z jednego drzewa? Losowy las używa różnych próbek z drzewa do utworzenia drzewa. Jaka jest zaleta tej metody zamiast używania pojedynczego drzewa?
Mam nadzieję, że możesz mi pomóc, ponieważ mam kilka pytań na ten temat. Jestem nowy w dziedzinie głębokiego uczenia się i chociaż przeprowadziłem kilka samouczków, nie mogę nawiązywać ani rozróżniać pojęć.
Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …
Jestem pewien, że nauka o danych, która będzie omawiana na tym forum, ma kilka synonimów lub przynajmniej powiązanych dziedzin, w których analizowane są duże dane. Moje szczególne pytanie dotyczy eksploracji danych. Kilka lat temu wziąłem udział w zajęciach z Data Mining. Jakie są różnice między Data Science a Data Mining, …
tło Pracuję nad zestawem danych szeregów czasowych odczytów liczników energii. Długość serii różni się w zależności od metra - dla niektórych mam kilka lat, innych tylko kilka miesięcy itp. Wiele z nich wykazuje znaczną sezonowość, a często wiele warstw - w ciągu dnia, tygodnia lub roku. Jedną z rzeczy, nad …
Chcę wiedzieć, co tak naprawdę dzieje się w Hellinger Distance (w prostych słowach). Co więcej, jestem również zainteresowany tym, jakie rodzaje problemów możemy wykorzystać Hellinger Distance? Jakie są zalety korzystania z Hellinger Distance?
Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę …
Niedawno natknąłem się na terminy Word2Vec , Sentence2Vec i Doc2Vec i trochę zdezorientowany, ponieważ jestem nowy w semantyce wektorowej. Czy ktoś może wyjaśnić różnice w tych metodach prostymi słowami. Jakie są najbardziej odpowiednie zadania dla każdej metody?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.