Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

3
Pomiar wydajności różnych klasyfikatorów o różnych wielkościach próbek
Obecnie używam kilku różnych klasyfikatorów na różnych jednostkach wyodrębnionych z tekstu i używam precyzji / przywołania jako podsumowania tego, jak dobrze każdy oddzielny klasyfikator działa w danym zestawie danych. Zastanawiam się, czy istnieje sensowny sposób porównywania wydajności tych klasyfikatorów w podobny sposób, ale który bierze również pod uwagę całkowitą liczbę …

3
Wydajny model bazy danych do przechowywania danych indeksowanych według n-gramów
Pracuję nad aplikacją, która wymaga utworzenia bardzo dużej bazy danych n-gramów, która istnieje w dużym korpusie tekstowym. Potrzebuję trzech wydajnych typów operacji: wyszukiwanie i wstawianie indeksowane przez sam n-gram oraz sprawdzanie wszystkich n-gramów zawierających sub-n-gram. Wydaje mi się, że baza danych powinna być gigantycznym drzewem dokumentów, a bazy danych dokumentów, …
12 nlp  databases 

3
Przewidywanie następnego stanu medycznego na podstawie przeszłych stanów w danych roszczeń
Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM). Moimi celami są: Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla stanu medycznego, takiego …

1
Jaka jest różnica między globalnymi a uniwersalnymi metodami kompresji?
Rozumiem, że metody kompresji można podzielić na dwa główne zestawy: światowy lokalny Pierwszy zestaw działa niezależnie od przetwarzanych danych, tzn. Nie opierają się na żadnej charakterystyce danych, a zatem nie muszą wykonywać żadnego przetwarzania wstępnego w żadnej części zestawu danych (przed samą kompresją). Z drugiej strony lokalne metody analizują dane, …

3
Czy Amazon RedShift zastępuje Hadoop dla danych ~ 1XTB?
Hadoop i jego ekosystem są bardzo popularne. Jednak w praktyce, gdy wiele zestawów danych znajduje się w zakresie terabajtów, nie jest rozsądniej używać Amazon RedShift do odpytywania dużych zestawów danych, zamiast spędzać czas i wysiłek na budowie klastra Hadoop? W jaki sposób Amazon Redshift wypada w porównaniu z Hadoop pod …


2
Algorytm dopasowywania preferencji
Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich preferencji. Główną ideą jest wskazanie każdego członka Akorespondenta, w …

2
Kompromisy między Stormem a Hadoopem (MapReduce)
Czy ktoś może mi powiedzieć o kompromisach związanych z wyborem między Storm a MapReduce w klastrze Hadoop do przetwarzania danych? Oczywiście oprócz oczywistego, że Hadoop (przetwarzanie przez MapReduce w klastrze Hadoop) jest systemem przetwarzania wsadowego, a Storm jest systemem przetwarzania w czasie rzeczywistym. Pracowałem trochę z Hadoop Eco System, ale …

3
Wystąpienia a rdzenie podczas korzystania z EC2
Pracując nad czymś, co często można nazwać projektami „średnich danych”, byłem w stanie zrównoleglać mój kod (głównie do modelowania i prognozowania w Pythonie) na jednym systemie w dowolnym miejscu od 4 do 32 rdzeni. Teraz patrzę na skalowanie do klastrów w EC2 (prawdopodobnie z StarCluster / IPython, ale także otwartym …
12 parallel  clusters  aws 

2
Czy sieć neuronowa może obliczyć
W duchu słynnego żartu Fizz Buzz z Tensorflow i problemu XOr zacząłem myśleć, czy można zaprojektować sieć neuronową, która implementuje funkcję ?y= x2)y=x2)y = x^2 Biorąc pod uwagę pewną reprezentację liczby (np. Jako wektor w postaci binarnej, aby liczba 5była reprezentowana jako [1,0,1,0,0,0,0,...]), sieć neuronowa powinna nauczyć się zwracać swój …

3
Czy istnieje zasada kciuka przy projektowaniu sieci neuronowych?
Wiem, że architektura sieci neuronowej opiera się głównie na samym problemie i typach wejść / wyjść, ale mimo to - zawsze zaczyna się „kwadratowa”, gdy zaczyna się ją budować. Więc moje pytanie brzmi - biorąc pod uwagę wejściowy zestaw danych MxN (M to liczba rekordów, N to liczba funkcji) i …

1
Znaczenie cech z cechami jakościowymi wysokiej kardynalności dla regresji (zmienna zależna numerycznie)
Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …

1
Powód kwadratowych obrazów w głębokim uczeniu się
Większość zaawansowanych modeli głębokiego uczenia, takich jak VGG, ResNet itp., Wymaga kwadratowych obrazów jako danych wejściowych, zwykle o rozmiarze piksela x .224 x 224224x224224x224 Czy istnieje powód, dla którego dane wejściowe muszą być w jednakowym kształcie, czy też mogę zbudować model konwekcyjny z powiedzmy (jeśli chcę na przykład rozpoznać twarz …

4
Jak się dowiedzieć, że model zaczął się przeładowywać?
Mam nadzieję, że poniższe fragmenty zapewnią wgląd w to, jakie będzie moje pytanie. Są one z http://neuralnetworksanddeeplearning.com/chap3.html Uczenie się następnie stopniowo zwalnia. Wreszcie, mniej więcej w epoce 280 dokładność klasyfikacji przestaje się poprawiać. Późniejsze epoki po prostu widzą niewielkie fluktuacje stochastyczne w pobliżu wartości dokładności z epoki 280. Porównaj to …

2
Utrata walidacji i dokładność pozostają stałe
Próbuję zaimplementować ten artykuł na zestawie obrazów medycznych. Robię to w Keras. Sieć zasadniczo składa się z 4 warstw konwekcyjnych i maksymalnych pul, po których następuje w pełni połączona warstwa i miękki klasyfikator maksymalny. O ile wiem, postępowałem zgodnie z architekturą wymienioną w artykule. Jednak utrata walidacji i dokładność pozostają …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.