Zbiór danych to zbiór danych, często w formie tabelarycznej lub macierzowej. Ten tag NIE jest przeznaczony do żądań danych ("gdzie mogę znaleźć zestaw danych o ...") -> zobacz OpenData
Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w …
Moim zadaniem „uczenia maszynowego” jest oddzielanie łagodnego ruchu internetowego od ruchu złośliwego. W scenariuszu realnym większość (powiedzmy 90% lub więcej) ruchu internetowego jest łagodna. Dlatego czułem, że powinienem również wybrać podobną konfigurację danych do szkolenia moich modeli. Ale natknąłem się na jeden lub dwa artykuły badawcze (w mojej dziedzinie pracy), …
Próbuję wytrenować model zwiększania gradientu na ponad 50 tysiącach przykładów ze 100 funkcjami numerycznymi. XGBClassifierobsługuje 500 drzew w ciągu 43 sekund na mojej maszynie, a GradientBoostingClassifierobsługuje tylko 10 drzew (!) w 1 minutę i 2 sekundy :( Nie zawracałem sobie głowy próbą wyhodowania 500 drzew, ponieważ zajmie to godziny. Używam …
Mam problem z klasyfikacją około 1000 pozytywnych i 10000 negatywnych próbek w zestawie treningowym. Tak więc ten zestaw danych jest dość niezrównoważony. Zwykły losowy las próbuje tylko oznaczyć wszystkie próbki testowe jako klasę większości. Oto kilka dobrych odpowiedzi na temat podpróbkowania i ważonego losowego lasu: Jakie są implikacje dla szkolenia …
Jako rozszerzenie naszej wspaniałej listy publicznie dostępnych zestawów danych , chciałbym wiedzieć, czy istnieje jakakolwiek lista publicznie dostępnych zestawów danych / indeksujących interfejsów API sieci społecznościowej. Byłoby bardzo miło, gdyby oprócz linku do zestawu danych / API dodano cechy dostępnych danych. Takimi informacjami powinny być i nie są ograniczone do: …
Powszechną techniką po przeszkoleniu, sprawdzeniu poprawności i przetestowaniu preferowanego modelu uczenia maszynowego jest użycie pełnego zestawu danych, w tym podzestawu testowego, do wyszkolenia ostatecznego modelu w celu wdrożenia go, np. Produktu. Moje pytanie brzmi: czy zawsze tak jest najlepiej? Co jeśli wydajność faktycznie się pogorszy? Załóżmy na przykład, że model …
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Nie wiem, czy to właściwe miejsce, aby zadać to pytanie, ale moim zdaniem …
Zasadniczo model uczenia maszynowego jest oparty na zestawach danych. Chciałbym wiedzieć, czy istnieje jakiś sposób na wygenerowanie syntetycznego zestawu danych przy użyciu takiego wyuczonego modelu uczenia maszynowego, zachowującego oryginalne cechy zestawu danych? [oryginalne dane -> zbuduj model uczenia maszynowego -> użyj modelu ml do wygenerowania danych syntetycznych .... !!!] Czy …
Obecnie szukam zestawów danych z etykietami, aby trenować model wyodrębniania nazwanych elementów z nieformalnego tekstu (coś podobnego do tweetów). Ponieważ w dokumentach w moim zestawie danych często brakuje wielkich liter i gramatyki, szukam danych poza domeną, które są nieco bardziej „nieformalne” niż artykuły prasowe i wpisy do dziennika, że wiele …
Pracuję nad wyzwaniem Kaggle, w którym niektóre zmienne są reprezentowane przez wiersze zamiast kolumn (zakłócenia sieci Telstra). Obecnie szukam odpowiednika funkcji gromadzenia (), separacji () i rozprzestrzeniania (), które można znaleźć w narzędziu R tidyr.
Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …
Mam nadzieję, że to pytanie jest najbardziej odpowiednie na tej stronie ... W Pythonie zwykle nazwa klasy jest definiowana na przykład za pomocą dużej litery class Vehicle: ... Jednak w dziedzinie uczenia maszynowego dane treningowe i testowe często są definiowane jako Xi Y- nie xi y. Na przykład teraz czytam …
Jeśli spojrzę na jedno z wielu źródeł klas Imagenet w Internecie, nie mogę znaleźć żadnej klasy związanej z ludźmi (i nie, żniwiarz nie jest kimś, kto zbiera, ale to, co znałem jako długie nogi tatusia, rodzaj pająk :-). Jak to możliwe? Chciałbym mieć co najmniej spodziewali się personlekcje, a nawet …
Jestem początkującym w uczeniu maszynowym i mam do czynienia z sytuacją. Pracuję nad problemem określania stawek w czasie rzeczywistym z zestawem danych IPinYou i próbuję przewidzieć kliknięcie. Chodzi o to, że, jak być może wiesz, zestaw danych jest bardzo niezrównoważony: około 1300 negatywnych przykładów (bez kliknięcia) na 1 pozytywny przykład …
Mam zestaw wyników testu A / B (jedna grupa kontrolna, jedna grupa cech), które nie pasują do rozkładu normalnego. W rzeczywistości rozkład bardziej przypomina rozkład Landaua. Uważam, że niezależny test t wymaga, aby próbki były co najmniej w przybliżeniu normalnie rozmieszczone, co zniechęca mnie do używania testu t jako ważnej …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.