Nauka danych

3

Niezbilansowane klasy - jak zminimalizować fałszywe negatywy?

Mam zestaw danych, który ma atrybut klasy binarnej. Istnieje 623 przypadki z klasą +1 (rak dodatni) i 101 671 przypadków z klasą -1 (rak ujemny). Wypróbowałem różne algorytmy (Naive Bayes, Random Forest, AODE, C4.5) i wszystkie mają niedopuszczalne współczynniki fałszywie ujemnych. Losowy las ma najwyższą ogólną dokładność prognozowania (99,5%) i …

11 classification random-forest decision-trees unbalanced-classes

4

W jaki sposób word2vec może być wykorzystywany do identyfikacji niewidocznych słów i powiązania ich z już wyszkolonymi danymi

Pracowałem nad modelem gensim word2vec i uznałem go za naprawdę interesujący. Interesuje mnie odkrycie, jak nieznane / niewidoczne słowo po sprawdzeniu z modelem będzie w stanie uzyskać podobne terminy z wyuczonego modelu. czy to możliwe? Czy Word2vec można do tego dostosować? Lub korpus szkoleniowy musi zawierać wszystkie słowa, których chcę …

11 nlp deep-learning word-embeddings unsupervised-learning

3

Problem z IPython / Jupyter na Spark (nierozpoznany alias)

Pracuję nad skonfigurowaniem zestawu maszyn wirtualnych do eksperymentowania ze Spark przed wydaniem pieniędzy na zbudowanie klastra z pewnym sprzętem. Szybka uwaga: Jestem naukowcem z doświadczeniem w stosowanym uczeniu maszynowym i trochę przestałem pracować w informatyce. Używam narzędzi do obliczeń, rzadko musiałbym je konfigurować. Utworzyłem 3 maszyny wirtualne (1 master, 2 …

11 python apache-spark pyspark ipython

4

Jak uniknąć przeuczenia w losowym lesie?

Chcę uniknąć przeuczenia w losowym lesie. W związku z tym zamierzam użyć mtry, węzłów i maksymalnych węzłów itp. Czy możesz mi pomóc w wyborze wartości dla tych parametrów? Używam R. Ponadto, jeśli to możliwe, proszę powiedz mi, jak mogę użyć k-krotnego sprawdzania poprawności dla losowego lasu (w R).

11 machine-learning data-mining r predictive-modeling random-forest

7

Pozyskiwanie danych z LinkedIn

Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …

11 data-mining social-network-analysis crawling scraping

3

Maszyny do faktoryzacji w terenie

Czy ktoś może wyjaśnić, w jaki sposób maszyny do faktoryzacji w terenie (FFM) porównują ze standardowymi maszynami do faktoryzacji (FM)? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf „Field Aware”: http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

11 machine-learning recommender-system

2

Sieć neuronowa do monitorowania serwera

Patrzę na pybrain do przyjmowania alarmów monitorowania serwera i określania głównej przyczyny problemu. Cieszę się ze szkolenia go przy użyciu nadzorowanego uczenia i doboru zestawów danych treningowych. Dane mają następującą strukturę: Typ serwera A # 1 Typ alarmu 1 Typ alarmu 2 Typ serwera A # 2 Typ alarmu 1 …

11 machine-learning neural-network

1

Fisher Scoring v / s Współrzędne Descent dla MLE in R

Funkcja podstawowa R glm()wykorzystuje punktację Fishera dla MLE, podczas gdy glmnetwydaje się, że używa metody opadania współrzędnych do rozwiązania tego samego równania. Opadanie współrzędnych jest bardziej wydajne czasowo niż punktacja Fishera, ponieważ punktacja Fishera oblicza macierz pochodną drugiego rzędu, oprócz niektórych innych operacji macierzy. co sprawia, że jest to kosztowne …

11 machine-learning r algorithms optimization

5

Jak scalać dane miesięczne, dzienne i tygodniowe?

Trendy Google zwracają cotygodniowe dane, dlatego muszę znaleźć sposób na połączenie ich z danymi dziennymi / miesięcznymi. Do tej pory zrobiłem podział każdej serii na codzienne dane, na przykład: od: 2013-03-03 - 2013-03-09 37 do: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 Ale …

11 time-series

1

Rozwiązania do ciągłej identyfikacji klastrów online?

Pokażę przykład hipotetycznej aplikacji do klastrowania online: W chwili n punkty 1,2,3,4 są przydzielane do niebieskiej grupy A, a punkty b, 5,6,7 są przydzielane do czerwonej grupy B. W chwili n + 1 wprowadzany jest nowy punkt a, który jest przypisany do niebieskiej gromady A, ale powoduje również przypisanie punktu …

11 machine-learning clustering

2

Rozwiązywanie układu równań z rzadkimi danymi

Próbuję rozwiązać zbiór równań, który ma 40 zmiennych niezależnych (x1, ..., x40) i jedną zmienną zależną (y). Całkowita liczba równań (liczba wierszy) wynosi ~ 300, i chcę rozwiązać dla zestawu 40 współczynników, które minimalizują całkowity błąd kwadratowy między y a przewidywaną wartością. Mój problem polega na tym, że macierz jest …

11 machine-learning regression algorithms genetic

3

Zbuduj binarny klasyfikator z danymi dodatnimi i nieznakowanymi

Mam 2 zestawy danych, jeden z pozytywnymi instancjami tego, co chciałbym wykryć, a drugi z nieznakowanymi instancjami. Jakich metod mogę użyć? Przykładowo, załóżmy, że chcemy zrozumieć wykrywanie spamu na podstawie kilku ustrukturyzowanych właściwości wiadomości e-mail. Mamy jeden zestaw danych zawierający 10000 wiadomości e-mail ze spamem i jeden zestaw danych zawierający …

11 classification semi-supervised-learning

4

Technika ekstrakcji funkcji - podsumowanie sekwencji danych

Często buduję model (klasyfikację lub regresję), w którym mam pewne zmienne predykcyjne, które są sekwencjami, i staram się znaleźć zalecenia dotyczące techniki, aby je podsumować w najlepszy możliwy sposób, aby można je było włączyć do modelu jako predyktory. Jako konkretny przykład, powiedzmy, że budowany jest model przewidujący, czy klient odejdzie …

11 machine-learning feature-selection time-series

4

Czy GLM to model statystyczny lub model uczenia maszynowego?

Myślałem, że uogólniony model liniowy (GLM) będzie uważany za model statystyczny, ale przyjaciel powiedział mi, że niektóre artykuły klasyfikują go jako technikę uczenia maszynowego. Który z nich jest prawdziwy (lub bardziej precyzyjny)? Wszelkie wyjaśnienia będą mile widziane.

11 machine-learning statistics glm

3

Czy algorytmy zmniejszania mapy napisane dla MongoDB mogą być później przeniesione do Hadoop?

W naszej firmie mamy bazę danych MongoDB zawierającą wiele nieustrukturyzowanych danych, na których musimy uruchamiać algorytmy zmniejszania mapy w celu generowania raportów i innych analiz. Mamy do wyboru dwa podejścia do wdrożenia wymaganych analiz: Jednym z podejść jest wyodrębnienie danych z MongoDB do klastra Hadoop i wykonanie analizy całkowicie na …

11 scalability apache-hadoop map-reduce mongodb