Zbiór danych to zbiór danych, często w formie tabelarycznej lub macierzowej. Ten tag NIE jest przeznaczony do żądań danych ("gdzie mogę znaleźć zestaw danych o ...") -> zobacz OpenData
Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …
Cześć, mam ramkę danych z dużymi wartościami kategorialnymi ponad 1600 kategorii. Czy mogę znaleźć alternatywy, aby nie mieć ponad 1600 kolumn. Znalazłem to poniżej ciekawy link http://amunategui.github.io/feature-hashing/#sourcecode Ale konwertują na klasę / obiekt, którego nie chcę. Czy chcę, aby końcowy wynik był ramką danych, aby móc testować za pomocą różnych …
Muszę wiedzieć, dlaczego musimy radzić sobie z nierównowagą danych. Wiem, jak sobie z tym poradzić i różne metody rozwiązania tego problemu, polegające na próbkowaniu w górę lub w dół lub w programie Smote. Na przykład, jeśli mam rzadką chorobę 1 procent na 100, i powiedzmy, że zdecydowałem się na zbalansowany …
Chcę zbadać zachowanie linii lotniczych w zakresie ustalania cen - w szczególności sposób, w jaki linie lotnicze reagują na ceny konkurentów. Ponieważ powiedziałbym, że moja wiedza na temat bardziej złożonych analiz jest dość ograniczona, zrobiłem głównie wszystkie podstawowe metody, aby zebrać ogólny widok danych. Obejmuje to proste wykresy, które już …
Czy ktoś wie, czy można zaimportować duży zestaw danych do Amazon S3 z adresu URL? Zasadniczo chcę uniknąć pobierania dużego pliku, a następnie ponownego ładowania go do S3 za pośrednictwem portalu internetowego. Chcę tylko podać adres URL pobierania do S3 i poczekać, aż ściągną go do swojego systemu plików. Wydaje …
Czy istnieją jakieś praktyczne zasady (lub rzeczywiste zasady) dotyczące minimalnej, maksymalnej i „rozsądnej” liczby komórek LSTM, których powinienem użyć? W szczególności odnoszę się do BasicLSTMCell z TensorFlow i num_unitswłasności. Załóżmy, że mam problem z klasyfikacją zdefiniowany przez: t - number of time steps n - length of input vector in …
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …
Istnieje wiele źródeł, które dostarczają historyczne dane o zapasach, ale podają tylko pola OHLC wraz z objętością i skorygowanym zamknięciem. Kilka źródeł, które znalazłem, dostarcza zestawów danych o kapitalizacji rynkowej, ale są one ograniczone do akcji w USA. Yahoo Finance udostępnia te dane w trybie online, ale nie ma możliwości …
Mam do czynienia z sytuacją, w której liczba pozytywnych i negatywnych przykładów w zbiorze danych jest niezrównoważona. Moje pytanie brzmi: czy istnieją jakieś praktyczne zasady, które mówią nam, kiedy powinniśmy podpróbować dużą kategorię, aby wymusić pewien rodzaj równoważenia w zbiorze danych. Przykłady: Jeśli liczba pozytywnych przykładów wynosi 1000, a liczba …
Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to: Zestaw danych kwiatu tęczówki ; Zestaw danych Titanic ; Samochody trendów samochodowych ; itp. Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania …
Piszę skrypt do rejestrowania danych na żywo w czasie w jednym pliku HDF5, który zawiera mój cały zestaw danych dla tego projektu. Pracuję z Pythonem 3.6 i postanowiłem utworzyć narzędzie wiersza poleceń clickdo gromadzenia danych. Moje obawy dotyczą tego, co się stanie, jeśli skrypt gromadzący dane zapisuje do pliku HDF5, …
Chciałbym przetestować nowy algorytm wspólnego filtrowania . Typowym przypadkiem użycia jest polecanie filmów na podstawie preferencji użytkowników podobnych do konkretnego użytkownika. Jakie są typowe zestawy danych porównawczych, których naukowcy często używają do testowania swoich algorytmów? Wiem, że w ramach Computer Vision ludzie często używają MNIST lub CIFAR, ale nie znalazłem …
W naszym ostatnim projekcie kursu z Data Science zaproponowaliśmy następujące- Daj opinie Amazon zestawu danych , planujemy wymyślić algorytm (to z grubsza na podstawie spersonalizowanej PageRank), który określa strategiczne położenie na umieszczanie reklam na Amazon. Na przykład w Amazon są miliony produktów. A zestaw danych daje wyobrażenie o tym, jakie …
Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu? Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.