Pytania otagowane jako data-mining

Działanie, które poszukuje wzorców w dużych, złożonych zestawach danych. Zazwyczaj kładzie nacisk na techniki algorytmiczne, ale może również obejmować dowolny zestaw powiązanych umiejętności, aplikacji lub metodologii z tym celem.

13
K-oznacza grupowanie mieszanych danych liczbowych i kategorialnych
Mój zestaw danych zawiera szereg atrybutów liczbowych i jeden kategoryczny. Powiedzieć NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, gdzie CategoricalAttrzajmuje jedną z trzech możliwych wartości: CategoricalAttrValue1, CategoricalAttrValue2lub CategoricalAttrValue3. Używam domyślnej implementacji algorytmu klastrowania k-średnich dla Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Działa tylko z danymi numerycznymi. Więc moje pytanie: czy poprawne jest podzielenie atrybutu kategorycznego …

8
Wykrywanie anomalii open source w Pythonie
Tło problemu: Pracuję nad projektem, który obejmuje pliki dziennika podobne do plików znalezionych w przestrzeni monitorowania IT (według mojego najlepszego zrozumienia przestrzeni IT). Te pliki dziennika są danymi szeregów czasowych, uporządkowanymi w setki / tysiące wierszy o różnych parametrach. Każdy parametr ma wartość liczbową (zmiennoprzecinkową) i dla każdego punktu czasowego …

2
Czy maszyny wektorów wsparcia są nadal uważane za „najnowocześniejsze” w swojej niszy?
To pytanie jest odpowiedzią na komentarz, który widziałem na inne pytanie. Komentarz dotyczył programu szkolenia Machine Learning na Coursera, podobnie jak „SVM nie są obecnie tak często używane”. Właśnie ukończyłem odpowiednie wykłady i rozumiem SVM, ponieważ są one solidnym i wydajnym algorytmem uczenia się do klasyfikacji oraz że podczas korzystania …


1
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
Jak zrobić SVD i PCA z dużymi danymi?
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …

3
Współczynnik Gini vs zanieczyszczenie Gini - drzewa decyzyjne
Problem dotyczy budowy drzew decyzyjnych. Według Wikipedii „ współczynnika Giniego ” nie należy mylić z „ zanieczyszczeniem Giniego ”. Jednak obie miary mogą być użyte podczas budowania drzewa decyzyjnego - mogą one wspierać nasze wybory przy dzieleniu zestawu elementów. 1) „Zanieczyszczenie Giniego” - jest to standardowa miara podziału drzewa decyzyjnego …



4
Znaczenie ukrytych cech?
Uczę się o rozkładaniu macierzy na systemy rekomendujące i widzę, że termin latent featureswystępuje zbyt często, ale nie jestem w stanie zrozumieć, co to znaczy. Wiem, co to jest funkcja, ale nie rozumiem pojęcia ukrytych funkcji. Czy możesz to wyjaśnić? A przynajmniej wskaż mi artykuł / miejsce, w którym mogę …

4
Czy Data Science to to samo, co Data Mining?
Jestem pewien, że nauka o danych, która będzie omawiana na tym forum, ma kilka synonimów lub przynajmniej powiązanych dziedzin, w których analizowane są duże dane. Moje szczególne pytanie dotyczy eksploracji danych. Kilka lat temu wziąłem udział w zajęciach z Data Mining. Jakie są różnice między Data Science a Data Mining, …



4
Jakiego modelu statystycznego powinienem użyć do analizy prawdopodobieństwa, że ​​pojedyncze zdarzenie wpłynęło na dane podłużne
Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że ​​określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google. Oto przykładowy scenariusz: Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.