Nauka danych dataset

6

Zestawy danych rozumiejące najlepsze praktyki

Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …

13 statistics dataset

4

Jedna alternatywa kodowania na gorąco dla dużych wartości jakościowych?

Cześć, mam ramkę danych z dużymi wartościami kategorialnymi ponad 1600 kategorii. Czy mogę znaleźć alternatywy, aby nie mieć ponad 1600 kolumn. Znalazłem to poniżej ciekawy link http://amunategui.github.io/feature-hashing/#sourcecode Ale konwertują na klasę / obiekt, którego nie chcę. Czy chcę, aby końcowy wynik był ramką danych, aby móc testować za pomocą różnych …

13 machine-learning dataset dimensionality-reduction encoding

2

dlaczego musimy radzić sobie z nierównowagą danych?

Muszę wiedzieć, dlaczego musimy radzić sobie z nierównowagą danych. Wiem, jak sobie z tym poradzić i różne metody rozwiązania tego problemu, polegające na próbkowaniu w górę lub w dół lub w programie Smote. Na przykład, jeśli mam rzadką chorobę 1 procent na 100, i powiedzmy, że zdecydowałem się na zbalansowany …

12 classification dataset sampling class-imbalance

2

Taryfy lotnicze - Jaką analizę należy zastosować, aby wykryć konkurencyjne zachowanie przy ustalaniu cen i korelacje cenowe?

Chcę zbadać zachowanie linii lotniczych w zakresie ustalania cen - w szczególności sposób, w jaki linie lotnicze reagują na ceny konkurentów. Ponieważ powiedziałbym, że moja wiedza na temat bardziej złożonych analiz jest dość ograniczona, zrobiłem głównie wszystkie podstawowe metody, aby zebrać ogólny widok danych. Obejmuje to proste wykresy, które już …

12 data-mining dataset regression correlation visualization

4

Pobieranie dużego zestawu danych z Internetu bezpośrednio do AWS S3

Czy ktoś wie, czy można zaimportować duży zestaw danych do Amazon S3 z adresu URL? Zasadniczo chcę uniknąć pobierania dużego pliku, a następnie ponownego ładowania go do S3 za pośrednictwem portalu internetowego. Chcę tylko podać adres URL pobierania do S3 i poczekać, aż ściągną go do swojego systemu plików. Wydaje …

12 dataset aws

1

Ile komórek LSTM powinienem użyć?

Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Ile danych jest wystarczających do wyszkolenia mojego modelu uczenia maszynowego?

Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …

11 machine-learning data-mining dataset data-cleaning data

4

Gdzie mogę pobrać dane historyczne dotyczące kapitalizacji rynku i dziennych obrotów dla akcji?

Istnieje wiele źródeł, które dostarczają historyczne dane o zapasach, ale podają tylko pola OHLC wraz z objętością i skorygowanym zamknięciem. Kilka źródeł, które znalazłem, dostarcza zestawów danych o kapitalizacji rynkowej, ale są one ograniczone do akcji w USA. Yahoo Finance udostępnia te dane w trybie online, ale nie ma możliwości …

11 dataset

3

Kiedy powinniśmy uznać zestaw danych za niezrównoważony?

Mam do czynienia z sytuacją, w której liczba pozytywnych i negatywnych przykładów w zbiorze danych jest niezrównoważona. Moje pytanie brzmi: czy istnieją jakieś praktyczne zasady, które mówią nam, kiedy powinniśmy podpróbować dużą kategorię, aby wymusić pewien rodzaj równoważenia w zbiorze danych. Przykłady: Jeśli liczba pozytywnych przykładów wynosi 1000, a liczba …

10 classification dataset sampling class-imbalance

3

Klasyczne zestawy danych do analizy sieci

Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to: Zestaw danych kwiatu tęczówki ; Zestaw danych Titanic ; Samochody trendów samochodowych ; itp. Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania …

10 dataset graphs

1

Czy HDF5 może być niezawodnie zapisywany i odczytywany jednocześnie przez oddzielne procesy python?

Piszę skrypt do rejestrowania danych na żywo w czasie w jednym pliku HDF5, który zawiera mój cały zestaw danych dla tego projektu. Pracuję z Pythonem 3.6 i postanowiłem utworzyć narzędzie wiersza poleceń clickdo gromadzenia danych. Moje obawy dotyczą tego, co się stanie, jeśli skrypt gromadzący dane zapisuje do pliku HDF5, …

9 python dataset

2

Zestawy danych porównawczych do wspólnego filtrowania

Chciałbym przetestować nowy algorytm wspólnego filtrowania . Typowym przypadkiem użycia jest polecanie filmów na podstawie preferencji użytkowników podobnych do konkretnego użytkownika. Jakie są typowe zestawy danych porównawczych, których naukowcy często używają do testowania swoich algorytmów? Wiem, że w ramach Computer Vision ludzie często używają MNIST lub CIFAR, ale nie znalazłem …

9 dataset recommender-system

2

Jak modelować zachowania zakupowe użytkownika w Amazon?

W naszym ostatnim projekcie kursu z Data Science zaproponowaliśmy następujące- Daj opinie Amazon zestawu danych , planujemy wymyślić algorytm (to z grubsza na podstawie spersonalizowanej PageRank), który określa strategiczne położenie na umieszczanie reklam na Amazon. Na przykład w Amazon są miliony produktów. A zestaw danych daje wyobrażenie o tym, jakie …

9 machine-learning data-mining dataset recommender-system

4

Zaproponuj zestawy danych szkoleniowych klasyfikatora tekstu

Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu? Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed. …

9 machine-learning classification dataset clustering text-mining

Pytania otagowane jako dataset