Szukam na przykład stosów infrastruktury / przepływów pracy / potoków

14

Próbuję zrozumieć, w jaki sposób wszystkie komponenty „big data” grają razem w rzeczywistym świecie, np. Hadoop, monogodb / nosql, storm, kafka, ... Wiem, że jest to dość szeroka gama narzędzi używanych do różne typy, ale chciałbym dowiedzieć się więcej o ich interakcji w aplikacjach, np. myślenie maszynowe dla aplikacji, aplikacji internetowej, sklepu internetowego.

Mam vistors / sesję, dane transakcji itp. I przechowuję je; ale jeśli chcę formułować rekomendacje w locie, nie mogę uruchamiać wolnych zadań mapowania / zmniejszania w tym przypadku w jakiejś dużej bazie danych dzienników. Gdzie mogę dowiedzieć się więcej na temat aspektów infrastruktury? Myślę, że mogę korzystać z większości narzędzi samodzielnie, ale podłączanie ich do siebie wydaje się być sztuką samą w sobie.

Czy są dostępne jakieś publiczne przykłady / przypadki użycia itp.? Rozumiem, że poszczególne potoki silnie zależą od przypadku użycia i użytkownika, ale tylko przykłady prawdopodobnie będą dla mnie bardzo przydatne.

— chrshmmmr
źródło

Czy przeprowadziłeś jakieś badania na ten temat? Istnieje wiele filmów z YouTube'a i prezentacji pokazujących różne architektury

— Stanpol

1

Hej Stanpol, dziękuję za twoją odpowiedź - przeprowadziłem kilka wstępnych wyszukiwań i tak naprawdę nie znalazłem niczego poza AWS i cloudera - może jeśli możesz podać mi kilka wyszukiwanych haseł, które są obiecujące, chętnie je stamtąd zabiorę.

— chrshmmmr

14

Aby zrozumieć różnorodność sposobów uczenia maszynowego w aplikacjach produkcyjnych, uważam, że warto przyjrzeć się projektom typu open source oraz artykułom / postom na blogach firm opisujących ich infrastrukturę.

Wspólnym tematem tych systemów jest oddzielenie szkolenia modelowego od zastosowania modelu. W systemach produkcyjnych aplikacja modelu musi być szybka, rzędu 100s ms, ale jest większa swoboda w tym, jak często parametry modelu (lub równoważne) muszą być aktualizowane.

Ludzie używają szerokiej gamy rozwiązań do szkolenia modeli i wdrażania:

Zbuduj model, a następnie wyeksportuj i wdróż go za pomocą PMML
- AirBnB opisuje szkolenie modeli w języku R / Python i wdrażanie modeli PMML poprzez OpenScoring.
- Wzorzec jest projektem związanym z Kaskadowaniem, który może wykorzystywać PMML i wdrażać modele predykcyjne.
Zbuduj model w MapReduce i uzyskaj dostęp do wartości w systemie niestandardowym
- Conjecture to projekt open source firmy Etsy, który pozwala na szkolenie modeli z wykorzystaniem Scalding , łatwiejszego w użyciu opakowania Scala wokół MapReduce i wdrażania za pośrednictwem Php.
- Kiji to projekt open source firmy WibiData, który pozwala na ocenianie modeli w czasie rzeczywistym (aplikacje), a także funkcjonalność w zakresie utrwalania danych użytkowników i modeli szkoleniowych na tych danych za pomocą Scaldinga.
Użyj systemu online, który pozwala na ciągłą aktualizację parametrów modelu.
- Google opublikował świetny artykuł na temat filtrowania opartego na współpracy online, które wdrożył, aby radzić sobie z zaleceniami w Google News.

— j_houg
źródło

7

Jednym z najbardziej szczegółowych i jasnych wyjaśnień dotyczących konfigurowania złożonego potoku analitycznego są ludzie z Twitcha .
Podają szczegółowe motywy każdego z wyborów architektury w zakresie gromadzenia, transportu, koordynacji, przetwarzania, przechowywania i wyszukiwania danych.
Przekonująca lektura! Znajdź to tutaj i tutaj .

— tchakravarty
źródło

To całkiem niesamowite, dokładnie tego szukałem!

— Wielkie

@chrshmmmr Nie ma za co. Nie zapomnij wyrazić opinii / oceny jako zaakceptowanej, jeśli to pomogło!

— tchakravarty

3

Te linki wydają się rzeczywiście bardzo przydatne, ale z drugiej strony są linkami i myślę, że powinniśmy starać się zachować odpowiedzi niezależnie od stabilności zewnętrznych źródeł. Byłoby więc miło, gdybyś potrzebował około dwóch lub trzech minut na dodanie, na przykład, diagramu z tego linku , zamieszczając go wraz z krótkim opisem. Coś w wierszach: „Na przykład jest to przepływ pracy… systemu. <img>. Więcej informacji można znaleźć w <link>.”

— Rubens

1

@Rubens Za chwilę zaproponuję edycję. fgnu: Zrobię to, potrzebuję trochę więcej reputacji, aby faktycznie głosować za odpowiedziami, ale z pewnością będę honorować twój wkład :)

— chrshmmmr

@Rubens Nie byłoby to więcej niż odtworzenie informacji pod linkiem. Zrobiłbym, gdyby było coś, co według mnie dodałoby do wyjaśnienia już tam podanego.

— tchakravarty

3

Zarówno Airbnb, jak i Etsy opublikowały niedawno szczegółowe informacje o swoich przepływach pracy.

— Trey
źródło

1

Rozdział 1 Praktycznej analizy danych w języku R ( http://www.manning.com/zumel/ ) zawiera świetny podział na proces analizy danych, w tym role zespołów i ich związek z określonymi zadaniami. Książka jest zgodna z modelami przedstawionymi w rozdziale, wskazując, na których etapach / personelu będzie wykonywane to lub inne zadanie.

— d8aninja
źródło