Nauka danych data-mining

13

K-oznacza grupowanie mieszanych danych liczbowych i kategorialnych

Mój zestaw danych zawiera szereg atrybutów liczbowych i jeden kategoryczny. Powiedzieć NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, gdzie CategoricalAttrzajmuje jedną z trzech możliwych wartości: CategoricalAttrValue1, CategoricalAttrValue2lub CategoricalAttrValue3. Używam domyślnej implementacji algorytmu klastrowania k-średnich dla Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Działa tylko z danymi numerycznymi. Więc moje pytanie: czy poprawne jest podzielenie atrybutu kategorycznego …

133 data-mining clustering octave k-means categorical-data

8

Wykrywanie anomalii open source w Pythonie

Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …

61 machine-learning python data-mining anomaly-detection library

2

Czy maszyny wektorów wsparcia są nadal uważane za „najnowocześniejsze” w swojej niszy?

To pytanie jest odpowiedzią na komentarz, który widziałem na inne pytanie. Komentarz dotyczył programu szkolenia Machine Learning na Coursera, podobnie jak „SVM nie są obecnie tak często używane”. Właśnie ukończyłem odpowiednie wykłady i rozumiem SVM, ponieważ są one solidnym i wydajnym algorytmem uczenia się do klasyfikacji oraz że podczas korzystania …

58 data-mining svm state-of-the-art

5

Jakie są standardowe sposoby obliczania odległości między dokumentami?

Kiedy mówię „dokument”, mam na myśli strony internetowe, takie jak artykuły z Wikipedii i wiadomości. Wolę odpowiedzi podające albo waniliowe leksykalne wskaźniki odległości, albo najnowocześniejsze semantyczne mierniki odległości, z silniejszą preferencją dla tych ostatnich.

34 machine-learning data-mining nlp text-mining similarity

1

Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?

Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

6

Jak zrobić SVD i PCA z dużymi danymi?

Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …

29 bigdata data-mining dimensionality-reduction

3

Współczynnik Gini vs zanieczyszczenie Gini - drzewa decyzyjne

Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …

25 data-mining

3

Dlaczego potrzebujemy XGBoost i Random Forest?

Nie byłem pewien kilku pojęć: XGBoost przekształca słabych uczniów w silnych uczniów. Jaka jest zaleta robienia tego? Łączenie wielu słabych uczniów zamiast korzystania z jednego drzewa? Losowy las używa różnych próbek z drzewa do utworzenia drzewa. Jaka jest zaleta tej metody zamiast używania pojedynczego drzewa?

25 machine-learning data-mining random-forest decision-trees xgboost

3

Dlaczego społeczności NLP i Machine Learning są zainteresowane głębokim uczeniem się?

Mam nadzieję, że możesz mi pomóc, ponieważ mam kilka pytań na ten temat. Jestem nowy w dziedzinie głębokiego uczenia się i chociaż przeprowadziłem kilka samouczków, nie mogę nawiązywać ani rozróżniać pojęć.

24 machine-learning data-mining neural-network nlp deep-learning

4

Znaczenie ukrytych cech?

Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …

24 machine-learning data-mining recommender-system

4

Czy Data Science to to samo, co Data Mining?

Jestem pewien, że nauka o danych, która będzie omawiana na tym forum, ma kilka synonimów lub przynajmniej powiązanych dziedzin, w których analizowane są duże dane. Moje szczególne pytanie dotyczy eksploracji danych. Kilka lat temu wziąłem udział w zajęciach z Data Mining. Jakie są różnice między Data Science a Data Mining, …

22 data-mining definitions

2

Jak radzić sobie z szeregami czasowymi, które zmieniają się w sezonowości lub innych wzorcach?

tło Pracuję nad zestawem danych szeregów czasowych odczytów liczników energii. Długość serii różni się w zależności od metra - dla niektórych mam kilka lat, innych tylko kilka miesięcy itp. Wiele z nich wykazuje znaczną sezonowość, a często wiele warstw - w ciągu dnia, tygodnia lub roku. Jedną z rzeczy, nad …

22 data-mining clustering time-series beginner

1

Co to jest odległość Hellingera i kiedy z niej korzystać?

Chcę wiedzieć, co tak naprawdę dzieje się w Hellinger Distance (w prostych słowach). Co więcej, jestem również zainteresowany tym, jakie rodzaje problemów możemy wykorzystać Hellinger Distance? Jakie są zalety korzystania z Hellinger Distance?

19 machine-learning data-mining text-mining distance

4

Jakiego modelu statystycznego powinienem użyć do analizy prawdopodobieństwa, że pojedyncze zdarzenie wpłynęło na dane podłużne

Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę …

19 machine-learning data-mining statistics

1

Word2Vec vs. Sentence2Vec vs. Doc2Vec

Niedawno natknąłem się na terminy Word2Vec , Sentence2Vec i Doc2Vec i trochę zdezorientowany, ponieważ jestem nowy w semantyce wektorowej. Czy ktoś może wyjaśnić różnice w tych metodach prostymi słowami. Jakie są najbardziej odpowiednie zadania dla każdej metody?

18 machine-learning data-mining clustering nlp unsupervised-learning

Pytania otagowane jako data-mining