Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

2
Jak obliczyć wymiar VC?
Studiuję uczenie maszynowe i chciałbym wiedzieć, jak obliczyć wymiar VC. Na przykład: h ( x ) = { 10jeśli a ≤ x ≤ bjeszcze h(x)={1gdyby za≤x≤b0jeszcze h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , z parametrami.(a,b)∈R2(za,b)∈R2)(a,b) ∈ R^2 Jaki jest jego wymiar VC?

2
Jak scalić dwie ramki danych w pandach Pythona?
Mam dwie ramki danych df1 i df2 i chciałbym je połączyć w jedną ramkę danych. To tak, jakby df1 i df2 zostały utworzone przez podzielenie pojedynczej ramki danych pionowo w dół na środku, jak rozerwanie kawałka papieru zawierającego listę na pół, tak aby połowa kolumn była na jednym papierze, a …
12 pandas 

2
Czy FPGrowth jest nadal uważany za „najnowocześniejszy” w częstym wydobywaniu wzorów?
O ile wiem rozwój algorytmów do rozwiązania problemu Frequent Pattern Mining (FPM), droga ulepszeń ma kilka głównych punktów kontrolnych. Po pierwsze, algorytm Apriori został zaproponowany w 1993 r. Przez Agrawal i in. wraz z sformalizowaniem problemu. Algorytm był w stanie usunąć niektóre zestawy z 2^n - 1zestawów (powerset) za pomocą …


1
Parametr scikit-learn n_jobs dotyczący użycia procesora i pamięci
W większości estymatorów w scikit-learn istnieje n_jobsparametr fit/ predictmetody do tworzenia równoległych zadań za pomocą joblib. Zauważyłem, że ustawienie go tak, aby -1tworzyło tylko 1 proces Pythona i maksymalizuje rdzenie, powodując, że użycie procesora osiągnęło 2500%. Różni się to znacznie od ustawienia dodatniej liczby całkowitej> 1, która tworzy wiele procesów …

2
Jak dopasować jakościowe typy danych do losowej klasyfikacji lasu?
Muszę znaleźć dokładność zestawu danych szkoleniowych, stosując algorytm losowego lasu. Ale mój typ mojego zestawu danych jest zarówno kategoryczny, jak i numeryczny. Kiedy próbowałem dopasować te dane, pojawia się błąd. „Dane wejściowe zawierają NaN, nieskończoność lub wartość zbyt dużą dla dtype („ float32 ”)”. Problem może dotyczyć typów danych obiektowych. …

3
Zastąp wszystkie wartości liczbowe w ramce danych pyspark stałą wartością
Rozważ ramkę danych typu pyspark składającą się z elementów „zerowych” i elementów numerycznych. Zasadniczo elementy liczbowe mają różne wartości. Jak można zastąpić wszystkie wartości liczbowe ramki danych stałą wartością liczbową (na przykład wartością 1)? Z góry dziękuję! Przykład ramki danych pyspark: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ …


3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

4
Jak działa zasada Razam Occam w uczeniu maszynowym
Niedawno podczas jednego z egzaminów zadano następujące pytanie wyświetlone na obrazku. Nie jestem pewien, czy poprawnie zrozumiałem zasadę brzytwy Ockhama, czy nie. Zgodnie z rozkładami i granicami decyzji podanymi w pytaniu i po brzytwach Ockhama granica decyzji B w obu przypadkach powinna być odpowiedzią. Ponieważ jak w przypadku Razora Razama, …

1
Używając wstępnie przeszkolonego klasyfikatora CNN i zastosuj go do innego zestawu danych obrazu
W jaki sposób można zoptymalizować się wstępnie przeszkolony neural network , aby zastosować go do osobnego problemu? Czy po prostu dodasz więcej warstw do wstępnie wyszkolonego modelu i przetestujesz go na swoim zestawie danych? Na przykład, jeśli zadaniem było użycie CNN do klasyfikacji grup tapet , jestem pewien, że nie …

2
Czy stuprocentowa dokładność modelu w przypadku nadmiernego dopasowania danych poza próbą?
Właśnie ukończyłem uczenie maszynowe dla kursu R na cognitiveclass.ai i zacząłem eksperymentować z losowymi lasami. Stworzyłem model, używając biblioteki „randomForest” w R. Model klasyfikuje według dwóch klas: dobrej i złej. Wiem, że gdy model jest przeładowany, działa dobrze na danych z własnego zestawu treningowego, ale źle na danych poza próbą. …

1
Jak prognozować przyszłe wartości horyzontu czasowego za pomocą Keras?
Właśnie zbudowałem tę sieć neuronową LSTM za pomocą Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name …

3
Sieci neuronowe - Znajdź najbardziej podobne obrazy
Pracuję z Pythonem, scikit-learn i keras. Mam 3000 tysięcy zdjęć zegarków z przednią twarzą, takich jak: Watch_1 , Watch_2 , Watch_3 . Chcę napisać program, który odbierze jako wejście zdjęcie prawdziwego zegarka, który może być zrobiony w mniej idealnych warunkach niż powyższe zdjęcia (inny kolor tła, ciemniejsze błyskawice itp.) I …

2
Kiedy mówimy, że zestaw danych nie podlega klasyfikacji?
Wielokrotnie analizowałem zestaw danych, na którym tak naprawdę nie mogłem dokonać żadnej klasyfikacji. Aby sprawdzić, czy mogę uzyskać klasyfikator, zwykle wykonałem następujące czynności: Wygeneruj wykresy pudełkowe etykiety na podstawie wartości liczbowych. Zmniejsz wymiarowość do 2 lub 3, aby zobaczyć, czy klasy można rozdzielić, czasami także próbowałem LDA. Staraj się dopasować …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.