Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

3
Niezbilansowane klasy - jak zminimalizować fałszywe negatywy?
Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i …

4
W jaki sposób word2vec może być wykorzystywany do identyfikacji niewidocznych słów i powiązania ich z już wyszkolonymi danymi
Pracowałem nad modelem gensim word2vec i uznałem go za naprawdę interesujący. Interesuje mnie odkrycie, jak nieznane / niewidoczne słowo po sprawdzeniu z modelem będzie w stanie uzyskać podobne terminy z wyuczonego modelu. czy to możliwe? Czy Word2vec można do tego dostosować? Lub korpus szkoleniowy musi zawierać wszystkie słowa, których chcę …

3
Problem z IPython / Jupyter na Spark (nierozpoznany alias)
Pracuję nad skonfigurowaniem zestawu maszyn wirtualnych do eksperymentowania ze Spark przed wydaniem pieniędzy na zbudowanie klastra z pewnym sprzętem. Szybka uwaga: Jestem naukowcem z doświadczeniem w stosowanym uczeniu maszynowym i trochę przestałem pracować w informatyce. Używam narzędzi do obliczeń, rzadko musiałbym je konfigurować. Utworzyłem 3 maszyny wirtualne (1 master, 2 …


7
Pozyskiwanie danych z LinkedIn
Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …

3
Maszyny do faktoryzacji w terenie
Czy ktoś może wyjaśnić, w jaki sposób maszyny do faktoryzacji w terenie (FFM) porównują ze standardowymi maszynami do faktoryzacji (FM)? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf „Field Aware”: http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

2
Sieć neuronowa do monitorowania serwera
Patrzę na pybrain do przyjmowania alarmów monitorowania serwera i określania głównej przyczyny problemu. Cieszę się ze szkolenia go przy użyciu nadzorowanego uczenia i doboru zestawów danych treningowych. Dane mają następującą strukturę: Typ serwera A # 1 Typ alarmu 1 Typ alarmu 2 Typ serwera A # 2 Typ alarmu 1 …

1
Fisher Scoring v / s Współrzędne Descent dla MLE in R
Funkcja podstawowa R glm()wykorzystuje punktację Fishera dla MLE, podczas gdy glmnetwydaje się, że używa metody opadania współrzędnych do rozwiązania tego samego równania. Opadanie współrzędnych jest bardziej wydajne czasowo niż punktacja Fishera, ponieważ punktacja Fishera oblicza macierz pochodną drugiego rzędu, oprócz niektórych innych operacji macierzy. co sprawia, że ​​jest to kosztowne …

5
Jak scalać dane miesięczne, dzienne i tygodniowe?
Trendy Google zwracają cotygodniowe dane, dlatego muszę znaleźć sposób na połączenie ich z danymi dziennymi / miesięcznymi. Do tej pory zrobiłem podział każdej serii na codzienne dane, na przykład: od: 2013-03-03 - 2013-03-09 37 do: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 Ale …

1
Rozwiązania do ciągłej identyfikacji klastrów online?
Pokażę przykład hipotetycznej aplikacji do klastrowania online: W chwili n punkty 1,2,3,4 są przydzielane do niebieskiej grupy A, a punkty b, 5,6,7 są przydzielane do czerwonej grupy B. W chwili n + 1 wprowadzany jest nowy punkt a, który jest przypisany do niebieskiej gromady A, ale powoduje również przypisanie punktu …

2
Rozwiązywanie układu równań z rzadkimi danymi
Próbuję rozwiązać zbiór równań, który ma 40 zmiennych niezależnych (x1, ..., x40) i jedną zmienną zależną (y). Całkowita liczba równań (liczba wierszy) wynosi ~ 300, i chcę rozwiązać dla zestawu 40 współczynników, które minimalizują całkowity błąd kwadratowy między y a przewidywaną wartością. Mój problem polega na tym, że macierz jest …

3
Zbuduj binarny klasyfikator z danymi dodatnimi i nieznakowanymi
Mam 2 zestawy danych, jeden z pozytywnymi instancjami tego, co chciałbym wykryć, a drugi z nieznakowanymi instancjami. Jakich metod mogę użyć? Przykładowo, załóżmy, że chcemy zrozumieć wykrywanie spamu na podstawie kilku ustrukturyzowanych właściwości wiadomości e-mail. Mamy jeden zestaw danych zawierający 10000 wiadomości e-mail ze spamem i jeden zestaw danych zawierający …



3
Czy algorytmy zmniejszania mapy napisane dla MongoDB mogą być później przeniesione do Hadoop?
W naszej firmie mamy bazę danych MongoDB zawierającą wiele nieustrukturyzowanych danych, na których musimy uruchamiać algorytmy zmniejszania mapy w celu generowania raportów i innych analiz. Mamy do wyboru dwa podejścia do wdrożenia wymaganych analiz: Jednym z podejść jest wyodrębnienie danych z MongoDB do klastra Hadoop i wykonanie analizy całkowicie na …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.