Nauka danych feature-selection

2

Jakie funkcje są ogólnie używane z drzew parsowanych w procesie klasyfikacji w NLP?

Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …

13 machine-learning nlp feature-selection feature-extraction

1

Jaka jest różnica między jednym kodowaniem na gorąco a pominięciem jednego kodowania?

Czytam prezentację i zaleca się, aby nie używać pomijania jednego kodu, ale w przypadku jednego kodowania na gorąco jest to w porządku. Myślałem, że oba są takie same. Czy ktoś może opisać, jakie są między nimi różnice?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

1

Znaczenie cech z cechami jakościowymi wysokiej kardynalności dla regresji (zmienna zależna numerycznie)

Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Wybór funkcji za pomocą importu funkcji w losowych lasach za pomocą scikit-learn

Mam kreślone na importances cechą w lasy losowe z scikit-learn . W jaki sposób mogę wykorzystać informacje o działce do usunięcia funkcji w celu poprawy prognozowania przy użyciu losowych lasów? Tj. Jak na podstawie informacji o działce stwierdzić, czy funkcja jest bezużyteczna, a nawet gorzej obniża wydajność losowych lasów? Fabuła …

12 feature-selection random-forest scikit-learn

3

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Technika ekstrakcji funkcji - podsumowanie sekwencji danych

Często buduję model (klasyfikację lub regresję), w którym mam pewne zmienne predykcyjne, które są sekwencjami, i staram się znaleźć zalecenia dotyczące techniki, aby je podsumować w najlepszy możliwy sposób, aby można je było włączyć do modelu jako predyktory. Jako konkretny przykład, powiedzmy, że budowany jest model przewidujący, czy klient odejdzie …

11 machine-learning feature-selection time-series

4

Który pierwszy: testowanie algorytmów, wybór funkcji, dostrajanie parametrów?

Kiedy próbuję dokonać np. Klasyfikacji, obecnie moim podejściem jest najpierw wypróbuj różne algorytmy i sprawdź je dokonaj wyboru funkcji na najlepszym algorytmie z 1 powyżej dostrój parametry za pomocą wybranych funkcji i algorytmu Jednak często nie mogę się przekonać, że może istnieć lepszy algorytm niż wybrany, jeśli inne algorytmy zostały …

11 feature-selection parameter-estimation

5

Kiedy usunąć skorelowane zmienne

Czy ktoś może zasugerować, jaki jest właściwy etap usuwania skorelowanych zmiennych przed inżynierią cech lub po inżynierii cech?

11 machine-learning feature-selection data-science-model

2

Regresja liniowa i skalowanie danych

Poniższy wykres pokazuje współczynniki uzyskane z regresją liniową (ze mpgzmienną docelową i wszystkimi innymi jako predyktorami). Dla zestawu danych mtcars ( tu i tutaj ) zarówno ze skalowaniem danych, jak i bez: Jak interpretować te wyniki? Zmienne hpi dispsą ważne tylko wtedy, gdy dane są skalowane. Czy ami qsecrównie ważne …

10 feature-selection linear-regression feature-scaling

3

Najlepsze języki do obliczeń naukowych [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Jak porównać skuteczność metod wyboru funkcji?

Istnieje kilka podejść do wyboru cech / wyboru zmiennych (patrz na przykład Guyon i Elisseeff, 2003 ; Liu i in., 2010 ): metody filtrowania (np. oparte na korelacji, entropii, losowe znaczenie ważności lasu), metody owijania (np. wyszukiwanie do przodu, wyszukiwanie podczas wspinaczki) i metody osadzone, w których wybór funkcji jest …

10 feature-selection performance model-selection

4

Wybór cech i relacja dokładności klasyfikacji

Jedną z metodologii wyboru podzbioru dostępnych funkcji klasyfikatora jest uszeregowanie ich według kryterium (takiego jak przyrost informacji), a następnie obliczenie dokładności przy użyciu klasyfikatora i podzbioru ocenianych elementów. Na przykład, jeśli twoje funkcje są A, B, C, D, E, a jeśli są uszeregowane w następujący sposób D,B,C,E,A, to obliczasz dokładność …

10 machine-learning feature-selection

7

Projekty informatyczne wyjaśnione krok po kroku?

Szukam strony internetowej lub książki, w której krok po kroku podano kilka praktycznych przykładów, wyjaśniających, w jaki sposób wybierają odpowiednie funkcje, procedurę wyboru modelu itp.

10 machine-learning feature-selection

3

Czy współrzędne GPS (szerokość i długość geograficzna) mogą być używane jako funkcje w modelu liniowym?

Mam zestawy danych, które zawierają, wśród wielu funkcji, współrzędne GPS (szerokość i długość geograficzna). Chciałbym użyć tych zestawów danych do zbadania problemów, takich jak: (1) obliczanie ETA w celu przejazdu między punktami początkowymi i końcowymi; oraz (2) oszacowanie liczby przestępstw dla określonego punktu. Chciałbym użyć modelu regresji liniowej. Czy mogę …

10 machine-learning feature-selection linear-regression feature-extraction geospatial

2

Co zrobić, gdy dane testowe mają mniej funkcji niż dane treningowe?

Powiedzmy, że przewidujemy sprzedaż sklepu, a moje dane szkoleniowe mają dwa zestawy funkcji: Jedna dotyczy sprzedaży w sklepie z datami (pole „Sklep” nie jest unikalne) Jedna dotyczy typów sklepów (pole „Sklep” jest tutaj unikalne) Zatem macierz wyglądałaby mniej więcej tak: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | …

10 machine-learning regression feature-selection feature-construction missing-data

Pytania otagowane jako feature-selection