Nauka danych feature-engineering

3

Kiedy używać One Hot Encoding vs LabelEncoder vs DictVectorizor?

Od jakiegoś czasu buduję modele z danymi kategorialnymi, a kiedy w tej sytuacji zasadniczo używam funkcji LabelEncoder scikit-learn do transformacji tych danych przed zbudowaniem modelu. Rozumiem różnicę między OHE, LabelEncodera DictVectorizorjeśli chodzi o to, co robią z danymi, ale to, co nie jest dla mnie jasne jest, kiedy można wybrać …

95 scikit-learn categorical-data feature-engineering

6

Funkcje kodowania, takie jak miesiąc i godzina, jako kategoryczne lub numeryczne?

Czy lepiej jest kodować funkcje takie jak miesiąc i godzina jako czynnik lub wartość liczbowa w modelu uczenia maszynowego? Z jednej strony uważam, że kodowanie numeryczne może być rozsądne, ponieważ czas jest procesem postępowym (po piątym miesiącu następuje szósty miesiąc), ale z drugiej strony uważam, że kodowanie kategoryczne może być …

23 machine-learning feature-extraction feature-engineering encoding numerical

3

Kodowanie zmiennych kategorialnych przy użyciu oszacowania prawdopodobieństwa

Próbuję zrozumieć, w jaki sposób mogę kodować zmienne kategorialne za pomocą oszacowania prawdopodobieństwa, ale jak dotąd nie odniosłem sukcesu. Wszelkie sugestie będą mile widziane.

22 feature-engineering

1

Czy jeden gorący wektor powinien być skalowany za pomocą atrybutów numerycznych?

W przypadku posiadania kombinacji atrybutów jakościowych i liczbowych zwykle przekształcam atrybuty jakościowe w jeden gorący wektor. Moje pytanie brzmi: czy pozostawiam te wektory bez zmian i skaluję atrybuty numeryczne poprzez standaryzację / normalizację, czy powinienem skalować jeden gorący wektor wraz z atrybutami numerycznymi?

20 feature-engineering feature-scaling data-science-model

3

Jak wykonać inżynierię funkcji na nieznanych funkcjach?

Biorę udział w konkursie kaggle. Zestaw danych ma około 100 funkcji i wszystkie są nieznane (pod względem tego, co faktycznie reprezentują). Zasadniczo są to tylko liczby. Ludzie wykonują wiele inżynierii funkcji na tych funkcjach. Zastanawiam się, jak dokładnie można wykonać inżynierię funkcji na nieznanych funkcjach? Czy ktoś może mi pomóc …

19 machine-learning feature-selection feature-extraction feature-engineering kaggle

1

Sposoby radzenia sobie z funkcją długości / szerokości geograficznej [zamknięte]

Zamknięte . To pytanie wymaga szczegółów lub jasności . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Dodaj szczegóły i wyjaśnij problem, edytując ten post . Zamknięte 3 lata temu . Pracuję nad fikcyjnym zestawem danych z 25 funkcjami. Dwie cechy to szerokość i długość geograficzna miejsca, a inne to …

19 machine-learning python feature-engineering feature-scaling normalization

5

powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Dlaczego przekształcamy wypaczone dane w normalny rozkład

Pracowałem nad rozwiązaniem konkursu cen mieszkań na Kaggle (jądro Human Analog w cenach domów: techniki regresji z wyprzedzeniem ) i natknąłem się na tę część: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed = …

15 regression feature-extraction feature-engineering kaggle feature-scaling

1

Jaka jest różnica między jednym kodowaniem na gorąco a pominięciem jednego kodowania?

Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

4

Czy to dobra praktyka inżynierii obiektów?

Mam praktyczne pytanie dotyczące inżynierii funkcji ... powiedzmy, że chcę przewidzieć ceny domów za pomocą regresji logistycznej i użyłem wielu funkcji, w tym kodu pocztowego. Następnie, sprawdzając ważność funkcji, zdaję sobie sprawę, że zip jest całkiem dobrą funkcją, więc postanowiłem dodać więcej funkcji opartych na zipie - na przykład idę …

10 logistic-regression feature-engineering feature-construction

Pytania otagowane jako feature-engineering