Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny


1
Czy bliższe punkty można uznać za bardziej podobne w wizualizacji T-SNE?
Rozumiem z artykułu Hintona, że ​​T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja). Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami. Jako przykład, obserwując poniższy obrazek, mogę …

4
Jak wykonać dopasowanie rozmyte adresów pocztowych?
Chciałbym wiedzieć, jak dopasować adresy pocztowe, gdy ich format różni się lub gdy jeden z nich jest źle zapisany. Do tej pory znalazłem różne rozwiązania, ale myślę, że są one dość stare i niezbyt wydajne. Jestem pewien, że istnieją lepsze metody, więc jeśli masz dla mnie referencje, jestem pewien, że …

4
Drzewo decyzyjne czy regresja logistyczna?
Pracuję nad problemem klasyfikacji. Mam zestaw danych zawierający taką samą liczbę zmiennych jakościowych i zmiennych ciągłych. Skąd będę wiedział, jakiej techniki użyć? między drzewem decyzyjnym a regresją logistyczną? Czy słusznie jest założyć, że regresja logistyczna będzie bardziej odpowiednia dla zmiennej ciągłej, a drzewo decyzyjne będzie bardziej odpowiednie dla zmiennej ciągłej …

2
Szybki k-oznacza jak algorytm dla 10 ^ 10 punktów?
Szukam k-oznacza grupowanie na zbiorze punktów 10-wymiarowych. Haczyk: jest 10 ^ 10 punktów . Szukam tylko środka i wielkości największych klastrów (powiedzmy od 10 do 100 klastrów); Nie dbam o to, w jakim klastrze kończy się każdy punkt. Używanie k-średnich nie jest ważne; Właśnie szukam podobnego efektu, każdy przybliżony średni …

2
Używanie atrybutów do klasyfikowania / klastrowania profili użytkowników
Mam zbiór danych użytkowników kupujących produkty ze strony internetowej. Atrybuty, które mam, to identyfikator użytkownika, region (stan) użytkownika, identyfikator kategorii produktu, identyfikator słowa kluczowego produktu, identyfikator słowa kluczowego witryny internetowej i kwota sprzedaży produktu. Celem jest wykorzystanie informacji o produkcie i stronie internetowej w celu ustalenia tożsamości użytkowników, takich jak …

1
Biblioteki uczenia maszynowego dla Ruby
Czy są jakieś biblioteki uczenia maszynowego dla języka Ruby, które są względnie kompletne (w tym szeroką gamę algorytmów do uczenia nadzorowanego i bez nadzoru), solidnie przetestowane i dobrze udokumentowane? Uwielbiam scikit-learn Pythona ze względu na jego niesamowitą dokumentację, ale klient wolałby napisać kod w Ruby, ponieważ jest z nim znany. …


4
Jakie są implikacje dla szkolenia zespołu drzewiastego z bardzo stronniczymi zestawami danych?
Mam bardzo stronniczy zestaw danych binarnych - mam 1000 razy więcej przykładów klasy ujemnej niż pozytywnej. Chciałbym trenować zespół drzew (na przykład Extra Random Trees lub A Random Forest) na tych danych, ale trudno jest utworzyć zestawy danych szkoleniowych, które zawierają wystarczającą liczbę przykładów pozytywnej klasy. Jakie byłyby konsekwencje zastosowania …

4
Szukam na przykład stosów infrastruktury / przepływów pracy / potoków
Próbuję zrozumieć, w jaki sposób wszystkie komponenty „big data” grają razem w rzeczywistym świecie, np. Hadoop, monogodb / nosql, storm, kafka, ... Wiem, że jest to dość szeroka gama narzędzi używanych do różne typy, ale chciałbym dowiedzieć się więcej o ich interakcji w aplikacjach, np. myślenie maszynowe dla aplikacji, aplikacji …

1
Czy drzewa wzmocnione gradientem mogą spełniać jakąkolwiek funkcję?
W przypadku sieci neuronowych mamy uniwersalne twierdzenie aproksymacyjne, które stwierdza, że ​​sieci neuronowe mogą aproksymować dowolną funkcję ciągłą na zwartym podzbiorze .RnRnR^n Czy istnieje podobny wynik dla drzew ze wzmocnieniem gradientu? Wydaje się to rozsądne, ponieważ można dodawać kolejne gałęzie, ale nie mogę znaleźć formalnej dyskusji na ten temat. EDYCJA: …

1
Jak dodać funkcje niezwiązane z obrazem obok obrazów bocznych jako dane wejściowe CNN
Trenuję splotową sieć neuronową, aby klasyfikować obrazy w warunkach mgły (3 klasy). Jednak dla każdego z około 150 000 obrazów mam również cztery zmienne meteorologiczne, które mogą pomóc w przewidywaniu klas obrazów. Zastanawiałem się, jak mogę dodać zmienne meteorologiczne (np. Temperaturę, prędkość wiatru) do istniejącej struktury CNN, aby pomóc w …


5
Początkowe książki matematyczne do uczenia maszynowego
Jestem inżynierem informatyki bez doświadczenia w statystyce i zaawansowanej matematyce. Studiuję książkę Python Machine Learning autorstwa Raschki i Mirjalili, ale kiedy próbowałem zrozumieć matematykę uczenia maszynowego, nie byłem w stanie zrozumieć wspaniałej książki, którą znajomy sugeruje mi Elementy uczenia statystycznego . Czy znasz jakieś łatwiejsze statystyki i książki matematyczne do …

1
Ile funkcji próbkować przy użyciu losowych lasów
Strona Wikipedii cytująca „Elementy uczenia statystycznego” mówi: Zazwyczaj w przypadku problemu z klasyfikacją funkcji ⌊ √ppp Funkcje p ⌋są używane w każdym podziale.⌊ str-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Rozumiem, że jest to dość dobrze wykształcone przypuszczenie i prawdopodobnie zostało to potwierdzone dowodami empirycznymi, ale czy istnieją inne powody, dla których wybrałby pierwiastek kwadratowy? …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.