k-średnie to rodzina metod analizy skupień, w których określasz liczbę spodziewanych klastrów. W przeciwieństwie do hierarchicznych metod analizy skupień.
Mój zestaw danych zawiera szereg atrybutów liczbowych i jeden kategoryczny. Powiedzieć NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, gdzie CategoricalAttrzajmuje jedną z trzech możliwych wartości: CategoricalAttrValue1, CategoricalAttrValue2lub CategoricalAttrValue3. Używam domyślnej implementacji algorytmu klastrowania k-średnich dla Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Działa tylko z danymi numerycznymi. Więc moje pytanie: czy poprawne jest podzielenie atrybutu kategorycznego …
Jakie jest właściwe podejście i algorytm grupowania dla grupowania geolokalizacyjnego? Używam następującego kodu do grupowania współrzędnych geolokalizacji: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], …
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
Próbuję zgrupować niektóre wektory z 90 funkcjami za pomocą K-średnich. Ponieważ ten algorytm pyta mnie o liczbę klastrów, chcę potwierdzić mój wybór pewną dobrą matematyką. Oczekuję, że mam od 8 do 10 klastrów. Funkcje są skalowane w punktacji Z. Wyjaśnienie metody łokcia i wariancji from scipy.spatial.distance import cdist, pdist from …
Gdy stosowana jest losowa inicjalizacja centroidów, różne serie K-średnich dają różne całkowite SSE. I ma to kluczowe znaczenie dla wydajności algorytmu. Jakie są skuteczne podejścia do rozwiązania tego problemu? Najnowsze podejścia są mile widziane.
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
K-średnich jest dobrze znanym algorytmem do tworzenia klastrów, ale istnieje również wariant online takiego algorytmu (K-średnich online). Jakie są zalety i wady tych podejść i kiedy należy je preferować?
Szukam k-oznacza grupowanie na zbiorze punktów 10-wymiarowych. Haczyk: jest 10 ^ 10 punktów . Szukam tylko środka i wielkości największych klastrów (powiedzmy od 10 do 100 klastrów); Nie dbam o to, w jakim klastrze kończy się każdy punkt. Używanie k-średnich nie jest ważne; Właśnie szukam podobnego efektu, każdy przybliżony średni …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Próbowałem zrozumieć różne algorytmy grupowania k-średnich, które są głównie zaimplementowane w statspakiecie Rjęzyka. Rozumiem algorytm Lloyda i algorytm online MacQueena. Sposób ich rozumienia jest następujący: Algorytm Lloyda: Początkowo wybiera się losowe obserwacje „k”, które będą służyć jako centroidy gromad „k”. Następnie w iteracji następują następujące kroki, aż centroidy zbiegną się. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.