Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Obecnie używam kilku różnych klasyfikatorów na różnych jednostkach wyodrębnionych z tekstu i używam precyzji / przywołania jako podsumowania tego, jak dobrze każdy oddzielny klasyfikator działa w danym zestawie danych. Zastanawiam się, czy istnieje sensowny sposób porównywania wydajności tych klasyfikatorów w podobny sposób, ale który bierze również pod uwagę całkowitą liczbę …
Pracuję nad aplikacją, która wymaga utworzenia bardzo dużej bazy danych n-gramów, która istnieje w dużym korpusie tekstowym. Potrzebuję trzech wydajnych typów operacji: wyszukiwanie i wstawianie indeksowane przez sam n-gram oraz sprawdzanie wszystkich n-gramów zawierających sub-n-gram. Wydaje mi się, że baza danych powinna być gigantycznym drzewem dokumentów, a bazy danych dokumentów, …
Obecnie pracuję z dużym zestawem danych dotyczących roszczeń z tytułu ubezpieczenia zdrowotnego, które obejmują niektóre roszczenia z laboratorium i apteki. Najbardziej spójne informacje w zestawie danych obejmują jednak diagnozę (ICD-9CM) i kody procedur (CPT, HCSPCS, ICD-9CM). Moimi celami są: Zidentyfikuj najbardziej wpływowe stany prekursorowe (choroby współistniejące) dla stanu medycznego, takiego …
Rozumiem, że metody kompresji można podzielić na dwa główne zestawy: światowy lokalny Pierwszy zestaw działa niezależnie od przetwarzanych danych, tzn. Nie opierają się na żadnej charakterystyce danych, a zatem nie muszą wykonywać żadnego przetwarzania wstępnego w żadnej części zestawu danych (przed samą kompresją). Z drugiej strony lokalne metody analizują dane, …
Hadoop i jego ekosystem są bardzo popularne. Jednak w praktyce, gdy wiele zestawów danych znajduje się w zakresie terabajtów, nie jest rozsądniej używać Amazon RedShift do odpytywania dużych zestawów danych, zamiast spędzać czas i wysiłek na budowie klastra Hadoop? W jaki sposób Amazon Redshift wypada w porównaniu z Hadoop pod …
Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 5 lat temu . Będąc ogólnie nowym uczeniem maszynowym, chciałbym zacząć się bawić i zobaczyć, jakie są …
Pracuję nad tym projektem pobocznym, w którym muszę opracować rozwiązanie następującego problemu. Mam dwie grupy osób (klientów). Grupa Azamierza kupić, a grupa Bzamierza sprzedać określony produkt X. Produkt ma szereg atrybutów x_i, a moim celem jest ułatwienie transakcji Ai Bdopasowanie ich preferencji. Główną ideą jest wskazanie każdego członka Akorespondenta, w …
Czy ktoś może mi powiedzieć o kompromisach związanych z wyborem między Storm a MapReduce w klastrze Hadoop do przetwarzania danych? Oczywiście oprócz oczywistego, że Hadoop (przetwarzanie przez MapReduce w klastrze Hadoop) jest systemem przetwarzania wsadowego, a Storm jest systemem przetwarzania w czasie rzeczywistym. Pracowałem trochę z Hadoop Eco System, ale …
Pracując nad czymś, co często można nazwać projektami „średnich danych”, byłem w stanie zrównoleglać mój kod (głównie do modelowania i prognozowania w Pythonie) na jednym systemie w dowolnym miejscu od 4 do 32 rdzeni. Teraz patrzę na skalowanie do klastrów w EC2 (prawdopodobnie z StarCluster / IPython, ale także otwartym …
W duchu słynnego żartu Fizz Buzz z Tensorflow i problemu XOr zacząłem myśleć, czy można zaprojektować sieć neuronową, która implementuje funkcję ?y= x2)y=x2)y = x^2 Biorąc pod uwagę pewną reprezentację liczby (np. Jako wektor w postaci binarnej, aby liczba 5była reprezentowana jako [1,0,1,0,0,0,0,...]), sieć neuronowa powinna nauczyć się zwracać swój …
Wiem, że architektura sieci neuronowej opiera się głównie na samym problemie i typach wejść / wyjść, ale mimo to - zawsze zaczyna się „kwadratowa”, gdy zaczyna się ją budować. Więc moje pytanie brzmi - biorąc pod uwagę wejściowy zestaw danych MxN (M to liczba rekordów, N to liczba funkcji) i …
Próbowałem użyć importu funkcji z Losowych Lasów, aby przeprowadzić empiryczny wybór funkcji dla problemu regresji, w którym wszystkie cechy są kategoryczne, a wiele z nich ma wiele poziomów (rzędu 100-1000). Biorąc pod uwagę, że kodowanie jednorazowe tworzy zmienną fikcyjną dla każdego poziomu, ważności operacji dotyczą każdego poziomu, a nie każdej …
Większość zaawansowanych modeli głębokiego uczenia, takich jak VGG, ResNet itp., Wymaga kwadratowych obrazów jako danych wejściowych, zwykle o rozmiarze piksela x .224 x 224224x224224x224 Czy istnieje powód, dla którego dane wejściowe muszą być w jednakowym kształcie, czy też mogę zbudować model konwekcyjny z powiedzmy (jeśli chcę na przykład rozpoznać twarz …
Mam nadzieję, że poniższe fragmenty zapewnią wgląd w to, jakie będzie moje pytanie. Są one z http://neuralnetworksanddeeplearning.com/chap3.html Uczenie się następnie stopniowo zwalnia. Wreszcie, mniej więcej w epoce 280 dokładność klasyfikacji przestaje się poprawiać. Późniejsze epoki po prostu widzą niewielkie fluktuacje stochastyczne w pobliżu wartości dokładności z epoki 280. Porównaj to …
Próbuję zaimplementować ten artykuł na zestawie obrazów medycznych. Robię to w Keras. Sieć zasadniczo składa się z 4 warstw konwekcyjnych i maksymalnych pul, po których następuje w pełni połączona warstwa i miękki klasyfikator maksymalny. O ile wiem, postępowałem zgodnie z architekturą wymienioną w artykule. Jednak utrata walidacji i dokładność pozostają …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.