Pytania otagowane jako dataset

Zbiór danych to zbiór danych, często w formie tabelarycznej lub macierzowej. Ten tag NIE jest przeznaczony do żądań danych ("gdzie mogę znaleźć zestaw danych o ...") -> zobacz OpenData

30
Publicznie dostępne zestawy danych
Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w …

5
Czy powinienem wybrać „zrównoważony” zbiór danych czy „reprezentatywny” zestaw danych?
Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …

1
Dlaczego xgboost jest o wiele szybszy niż sklearn GradientBoostingClassifier?
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Krótki przewodnik po szkoleniu wysoce niezrównoważonych zestawów danych
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …

7
Publicznie dostępne zestawy danych / interfejsy API sieci społecznościowych
Jako rozszerzenie naszej wspaniałej listy publicznie dostępnych zestawów danych , chciałbym wiedzieć, czy istnieje jakakolwiek lista publicznie dostępnych zestawów danych / indeksujących interfejsów API sieci społecznościowej. Byłoby bardzo miło, gdyby oprócz linku do zestawu danych / API dodano cechy dostępnych danych. Takimi informacjami powinny być i nie są ograniczone do: …

4
Czy zawsze lepiej jest używać całego zestawu danych do szkolenia ostatecznego modelu?
Powszechną techniką po przeszkoleniu, sprawdzeniu poprawności i przetestowaniu preferowanego modelu uczenia maszynowego jest użycie pełnego zestawu danych, w tym podzestawu testowego, do wyszkolenia ostatecznego modelu w celu wdrożenia go, np. Produktu. Moje pytanie brzmi: czy zawsze tak jest najlepiej? Co jeśli wydajność faktycznie się pogorszy? Załóżmy na przykład, że model …

3
Pomysły na projekt Data Science [zamknięte]
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Nie wiem, czy to właściwe miejsce, aby zadać to pytanie, ale moim zdaniem …

3
Jak wygenerować syntetyczny zestaw danych przy użyciu modelu uczenia maszynowego wyuczonego z oryginalnego zestawu danych?
Zasadniczo model uczenia maszynowego jest oparty na zestawach danych. Chciałbym wiedzieć, czy istnieje jakiś sposób na wygenerowanie syntetycznego zestawu danych przy użyciu takiego wyuczonego modelu uczenia maszynowego, zachowującego oryginalne cechy zestawu danych? [oryginalne dane -> zbuduj model uczenia maszynowego -> użyj modelu ml do wygenerowania danych syntetycznych .... !!!] Czy …

3
Zestaw danych do rozpoznawania nazwanych jednostek w tekście nieformalnym
Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że ​​wiele …
18 dataset  nlp 


5
powiększ mapę cieplną dna morskiego
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 



3
Czy w przypadku niezrównoważonej klasy muszę korzystać z próbkowania w moich zestawach danych do sprawdzania poprawności / testowania?
Jestem początkującym w uczeniu maszynowym i mam do czynienia z sytuacją. Pracuję nad problemem określania stawek w czasie rzeczywistym z zestawem danych IPinYou i próbuję przewidzieć kliknięcie. Chodzi o to, że, jak być może wiesz, zestaw danych jest bardzo niezrównoważony: około 1300 negatywnych przykładów (bez kliknięcia) na 1 pozytywny przykład …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.