Studium przypadku dla dużych zbiorów danych lub przykład zastosowania


13

Przeczytałem wiele blogów \ artykuł o tym, jak różne branże używają Big Data Analytic. Ale większość tego artykułu nie wspomina

  1. Jakie dane wykorzystały te firmy. Jaki był rozmiar danych
  2. Jakiego rodzaju narzędzi technologii wykorzystali do przetwarzania danych
  3. Jakiego problemu napotkali i jak wgląd w dane pomógł im rozwiązać problem.
  4. Jak wybrali narzędzie \ technologię do swoich potrzeb.
  5. Jaki rodzaj wzorca zidentyfikowali na podstawie danych i jakiego rodzaju wzorców szukali na podstawie danych.

Zastanawiam się, czy ktoś może udzielić mi odpowiedzi na wszystkie te pytania lub link, który przynajmniej odpowie na niektóre pytania. Szukam przykładu ze świata rzeczywistego.

Byłoby wspaniale, gdyby ktoś powiedział, w jaki sposób branża finansowa korzysta z Big Data Analytic.

Odpowiedzi:


14

Serwisy informacyjne często używają „Big Data”. Dostawcy zazwyczaj dostarczają analizy przypadków dotyczące ich konkretnych produktów. Nie ma wiele do implementacji typu open source, ale są one wymieniane. Na przykład Apache nie będzie spędzał dużo czasu na tworzeniu studium przypadku na hadoopie, ale dostawcy tacy jak Cloudera i Hortonworks prawdopodobnie tak zrobią.

Oto przykładowe studium przypadku z Cloudera w sektorze finansowym.

Cytując badanie:

Jeden z głównych globalnych konglomeratów usług finansowych korzysta z Cloudera i Datameer, aby pomóc zidentyfikować nieuczciwe działania handlowe. Zespoły w grupie zarządzającej aktywami firmy przeprowadzają analizy ad hoc codziennych danych o cenie, pozycji i zamówieniach. Dzięki analizie ad hoc wszystkich szczegółowych danych grupa może wykryć anomalie w niektórych klasach aktywów i zidentyfikować podejrzane zachowanie. Użytkownicy wcześniej polegali wyłącznie na narzędziach do arkuszy kalkulacyjnych na komputery. Teraz, dzięki Datameer i Cloudera, użytkownicy mają potężną platformę, która pozwala im szybciej przeglądać więcej danych i zapobiegać potencjalnym stratom przed ich rozpoczęciem.

.

Wiodący bank detaliczny korzysta z Cloudera i Datameer do sprawdzania dokładności i jakości danych zgodnie z wymogami ustawy Dodda-Franka i innych przepisów. Integrując dane pożyczek i oddziałów oraz dane dotyczące zarządzania majątkiem, inicjatywa banku dotycząca jakości danych jest odpowiedzialna za zapewnienie, że każdy zapis jest dokładny. Proces ten obejmuje poddanie danych ponad 50 kontroli bezpieczeństwa danych i kontroli jakości. Wyniki tych kontroli są z czasem zmieniane, aby zapewnić, że tolerancje w przypadku uszkodzenia danych i domen danych nie zmieniają się niekorzystnie, a profile ryzyka zgłaszane inwestorom i agencjom regulacyjnym są ostrożne i zgodne z wymogami regulacyjnymi. Wyniki są przekazywane za pośrednictwem pulpitu nawigacyjnego jakości danych do dyrektora ds. Ryzyka i dyrektora finansowego,

Nie widziałem żadnych innych badań związanych z finansami w Cloudera, ale nie szukałem zbyt mocno. Możesz zajrzeć do ich biblioteki tutaj.

Ponadto Hortonworks ma studium przypadku dotyczące strategii handlowych, w którym zaobserwowano 20% zmniejszenie czasu potrzebnego na opracowanie strategii poprzez wykorzystanie środków K, Hadoop i R.

Każdy kolor wskazuje grupę strategii o podobnym prawdopodobieństwie zysku i straty

w jaki sposób system transakcyjny został ulepszony za pomocą Hadoop (Hortonworks Data Platform) i algorytm k-średnich

To nie odpowiada na wszystkie twoje pytania. Jestem prawie pewien, że oba te badania obejmowały większość z nich. Nie widzę nic na temat doboru narzędzi. Wyobrażam sobie, że przedstawiciele handlowi mieli wiele wspólnego z wprowadzaniem całego produktu do domu, ale sami naukowcy wykorzystali narzędzia, z którymi byli najbardziej zadowoleni. Nie mam dużego wglądu w ten obszar w przestrzeni dużych zbiorów danych.


1
Dziękuję Ci. To jest bardzo pomocne. Wiem, że jest to miejsce na błędy i nie ma jednej właściwej odpowiedzi. Bardzo mnie interesuje, jak dobrać narzędzia i technologie big data do ich potrzeb. Na razie nie zaznaczam, że to właściwa odpowiedź, ale z pewnością zasługuje na dużo głosów na UP. Na zdrowie :)
Brown_Dynamite

6

Usługi finansowe to duży użytkownik Big Data, a także innowator. Jednym z przykładów jest handel listami zastawnymi. Aby odpowiedzieć na swoje pytania:

Jakie dane wykorzystały te firmy. Jaki był rozmiar danych?

  • Długie historie każdego kredytu hipotecznego wydanego w ciągu ostatnich wielu lat i płatności miesięczne przeciwko nim. (Miliardy rzędów)
  • Długie historie historii kredytowej. (Miliardy rzędów)
  • Wskaźniki cen domów. (Nie tak duży)

Jakiego rodzaju narzędzi technologii wykorzystali do przetwarzania danych?

To się zmienia. Niektórzy korzystają z wewnętrznych rozwiązań opartych na bazach danych, takich jak Netezza lub Teradata. Inni uzyskują dostęp do danych za pośrednictwem systemów dostarczanych przez dostawców danych. (Corelogic, Experian itp.) Niektóre banki używają kolumnowych technologii baz danych, takich jak KDB lub 1010 danych.

Jakiego problemu napotkali i jak wgląd w dane pomógł im rozwiązać problem.

Kluczową kwestią jest ustalenie, kiedy obligacje hipoteczne (hipoteczne papiery wartościowe) zostaną spłacone z góry lub niewypłacalne. Jest to szczególnie ważne w przypadku obligacji pozbawionych gwarancji rządowej. Wnikając w historię płatności, pliki kredytowe i rozumiejąc bieżącą wartość domu, można przewidzieć prawdopodobieństwo niewykonania zobowiązania. Dodanie modelu stopy procentowej i modelu przedpłaty pomaga również przewidzieć prawdopodobieństwo przedpłaty.

Jak wybrali narzędzie \ technologię do swoich potrzeb.

Jeśli projekt jest prowadzony przez wewnętrzne IT, zwykle opiera się na dużym dostawcy baz danych, takim jak Oracle, Teradata lub Netezza. Jeśli jest to napędzane przez kwanty, są one bardziej prawdopodobne, że trafią bezpośrednio do dostawcy danych lub systemu „Wszystko w” innej firmy.

Jaki rodzaj wzorca zidentyfikowali na podstawie danych i jakiego rodzaju wzorców szukali na podstawie danych.

Łączenie danych daje doskonały wgląd w to, kto może spłacić swoje pożyczki i spłacić je z góry. Po zsumowaniu pożyczek w obligacje może to być różnica między obligacją wyemitowaną w wysokości 20 000 000.100,000,000beingworththatamount,oraslittleas


Czy widziałeś jakieś przypadki, w których do modelowania z góry stosowane są techniki uczenia maszynowego. Czyli sieci neuronowe, losowy las, GBM?
Josh

5

Kaggle ma krótkie podsumowanie aplikacji:

Revolution Analytics opublikowało wiele ogólnych analiz przypadków, arkuszy danych i oficjalnych dokumentów:

W przypadku zastosowań w nauce i inżynierii można zapoznać się z studiami przypadków Nutonian :

Analyx powiedział potencjalnym klientom o aplikacjach w handlu:

Financial Times opublikował zbiór opowiadań o zastosowaniach biznesowych dużym danych:

McKinsey przedstawił aplikacje w 2011 roku:

Inne firmy konsultingowe przedstawiły podobne raporty.

Gartner stworzył Cykl Hype dla dużych zbiorów danych:

wprowadź opis zdjęcia tutaj

Nie wspominając o studiach przypadków i oficjalnych dokumentach innych firm, które chcą promować swoje produkty.


1

Spójrz na bezpłatne raporty danych O'Reilly . Można znaleźć raporty dotyczące bankowości i Fintech, sportu, mody, muzyki, zdrowia, ropy i gazu itd.

Należy pamiętać, że wspomniany wcześniej raport McKinsey to klasyczny raport, który należy przeczytać.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.