Pytania otagowane jako feature-selection

Metody i zasady wyboru podzbioru atrybutów do wykorzystania w dalszym modelowaniu

2
Jakie funkcje są ogólnie używane z drzew parsowanych w procesie klasyfikacji w NLP?
Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …


1
Znaczenie cech z cechami jakościowymi wysokiej kardynalności dla regresji (zmienna zależna numerycznie)
Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …


3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 


4
Który pierwszy: testowanie algorytmów, wybór funkcji, dostrajanie parametrów?
Kiedy próbuję dokonać np. Klasyfikacji, obecnie moim podejściem jest najpierw wypróbuj różne algorytmy i sprawdź je dokonaj wyboru funkcji na najlepszym algorytmie z 1 powyżej dostrój parametry za pomocą wybranych funkcji i algorytmu Jednak często nie mogę się przekonać, że może istnieć lepszy algorytm niż wybrany, jeśli inne algorytmy zostały …


2
Regresja liniowa i skalowanie danych
Poniższy wykres pokazuje współczynniki uzyskane z regresją liniową (ze mpgzmienną docelową i wszystkimi innymi jako predyktorami). Dla zestawu danych mtcars ( tu i tutaj ) zarówno ze skalowaniem danych, jak i bez: Jak interpretować te wyniki? Zmienne hpi dispsą ważne tylko wtedy, gdy dane są skalowane. Czy ami qsecrównie ważne …

3
Najlepsze języki do obliczeń naukowych [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 


4
Wybór cech i relacja dokładności klasyfikacji
Jedną z metodologii wyboru podzbioru dostępnych funkcji klasyfikatora jest uszeregowanie ich według kryterium (takiego jak przyrost informacji), a następnie obliczenie dokładności przy użyciu klasyfikatora i podzbioru ocenianych elementów. Na przykład, jeśli twoje funkcje są A, B, C, D, E, a jeśli są uszeregowane w następujący sposób D,B,C,E,A, to obliczasz dokładność …


3
Czy współrzędne GPS (szerokość i długość geograficzna) mogą być używane jako funkcje w modelu liniowym?
Mam zestawy danych, które zawierają, wśród wielu funkcji, współrzędne GPS (szerokość i długość geograficzna). Chciałbym użyć tych zestawów danych do zbadania problemów, takich jak: (1) obliczanie ETA w celu przejazdu między punktami początkowymi i końcowymi; oraz (2) oszacowanie liczby przestępstw dla określonego punktu. Chciałbym użyć modelu regresji liniowej. Czy mogę …

2
Co zrobić, gdy dane testowe mają mniej funkcji niż dane treningowe?
Powiedzmy, że przewidujemy sprzedaż sklepu, a moje dane szkoleniowe mają dwa zestawy funkcji: Jedna dotyczy sprzedaży w sklepie z datami (pole „Sklep” nie jest unikalne) Jedna dotyczy typów sklepów (pole „Sklep” jest tutaj unikalne) Zatem macierz wyglądałaby mniej więcej tak: +-------+-----------+------------+---------+-----------+------+-------+--------------+ | Store | DayOfWeek | Date | Sales | …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.