Szukam na przykład stosów infrastruktury / przepływów pracy / potoków


14

Próbuję zrozumieć, w jaki sposób wszystkie komponenty „big data” grają razem w rzeczywistym świecie, np. Hadoop, monogodb / nosql, storm, kafka, ... Wiem, że jest to dość szeroka gama narzędzi używanych do różne typy, ale chciałbym dowiedzieć się więcej o ich interakcji w aplikacjach, np. myślenie maszynowe dla aplikacji, aplikacji internetowej, sklepu internetowego.

Mam vistors / sesję, dane transakcji itp. I przechowuję je; ale jeśli chcę formułować rekomendacje w locie, nie mogę uruchamiać wolnych zadań mapowania / zmniejszania w tym przypadku w jakiejś dużej bazie danych dzienników. Gdzie mogę dowiedzieć się więcej na temat aspektów infrastruktury? Myślę, że mogę korzystać z większości narzędzi samodzielnie, ale podłączanie ich do siebie wydaje się być sztuką samą w sobie.

Czy są dostępne jakieś publiczne przykłady / przypadki użycia itp.? Rozumiem, że poszczególne potoki silnie zależą od przypadku użycia i użytkownika, ale tylko przykłady prawdopodobnie będą dla mnie bardzo przydatne.


Czy przeprowadziłeś jakieś badania na ten temat? Istnieje wiele filmów z YouTube'a i prezentacji pokazujących różne architektury
Stanpol

1
Hej Stanpol, dziękuję za twoją odpowiedź - przeprowadziłem kilka wstępnych wyszukiwań i tak naprawdę nie znalazłem niczego poza AWS i cloudera - może jeśli możesz podać mi kilka wyszukiwanych haseł, które są obiecujące, chętnie je stamtąd zabiorę.
chrshmmmr

Odpowiedzi:


14

Aby zrozumieć różnorodność sposobów uczenia maszynowego w aplikacjach produkcyjnych, uważam, że warto przyjrzeć się projektom typu open source oraz artykułom / postom na blogach firm opisujących ich infrastrukturę.

Wspólnym tematem tych systemów jest oddzielenie szkolenia modelowego od zastosowania modelu. W systemach produkcyjnych aplikacja modelu musi być szybka, rzędu 100s ms, ale jest większa swoboda w tym, jak często parametry modelu (lub równoważne) muszą być aktualizowane.

Ludzie używają szerokiej gamy rozwiązań do szkolenia modeli i wdrażania:


7

Jednym z najbardziej szczegółowych i jasnych wyjaśnień dotyczących konfigurowania złożonego potoku analitycznego są ludzie z Twitcha .
Podają szczegółowe motywy każdego z wyborów architektury w zakresie gromadzenia, transportu, koordynacji, przetwarzania, przechowywania i wyszukiwania danych.
Przekonująca lektura! Znajdź to tutaj i tutaj .


To całkiem niesamowite, dokładnie tego szukałem!
Wielkie

@chrshmmmr Nie ma za co. Nie zapomnij wyrazić opinii / oceny jako zaakceptowanej, jeśli to pomogło!
tchakravarty

3
Te linki wydają się rzeczywiście bardzo przydatne, ale z drugiej strony są linkami i myślę, że powinniśmy starać się zachować odpowiedzi niezależnie od stabilności zewnętrznych źródeł. Byłoby więc miło, gdybyś potrzebował około dwóch lub trzech minut na dodanie, na przykład, diagramu z tego linku , zamieszczając go wraz z krótkim opisem. Coś w wierszach: „Na przykład jest to przepływ pracy… systemu. <img>. Więcej informacji można znaleźć w <link>.”
Rubens

1
@Rubens Za chwilę zaproponuję edycję. fgnu: Zrobię to, potrzebuję trochę więcej reputacji, aby faktycznie głosować za odpowiedziami, ale z pewnością będę honorować twój wkład :)
chrshmmmr

@Rubens Nie byłoby to więcej niż odtworzenie informacji pod linkiem. Zrobiłbym, gdyby było coś, co według mnie dodałoby do wyjaśnienia już tam podanego.
tchakravarty


1

Rozdział 1 Praktycznej analizy danych w języku R ( http://www.manning.com/zumel/ ) zawiera świetny podział na proces analizy danych, w tym role zespołów i ich związek z określonymi zadaniami. Książka jest zgodna z modelami przedstawionymi w rozdziale, wskazując, na których etapach / personelu będzie wykonywane to lub inne zadanie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.