Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

4
Jakie pierwsze kroki powinienem zastosować, aby zrozumieć duże zestawy danych i jakich narzędzi powinienem użyć?
Zastrzeżenie: Jestem kompletnym początkującym, jeśli chodzi o uczenie maszynowe, ale chętnie się uczę. Mam duży zestaw danych i próbuję znaleźć w nim wzorzec. Może istnieć / może nie istnieć korelacja między danymi, albo ze znanymi zmiennymi, albo zmiennymi zawartymi w danych, ale których jeszcze nie zdawałem sobie sprawy, że są …

1
Prognozowanie za pomocą cech nieatomowych
Chciałbym użyć danych nieatomowych jako funkcji prognozy. Załóżmy, że mam tabelę z tymi funkcjami: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , …

3
Obsługa regularnie powiększającego się zestawu funkcji
Pracuję nad systemem wykrywania oszustw. W tym polu regularnie pojawiają się nowe oszustwa, dlatego należy na bieżąco dodawać nowe funkcje do modelu. Zastanawiam się, jaki jest najlepszy sposób, aby sobie z tym poradzić (z perspektywy procesu rozwoju)? Dodanie nowej cechy do wektora cech i ponowne przeszkolenie klasyfikatora wydaje się być …

2
Prognozowanie rynku walutowego za pomocą sieci neuronowych
Chciałbym użyć ANN do automatyzacji walut handlowych, najlepiej USD / EUR lub USD / GBP. Wiem, że jest to trudne i może nie być proste. Przeczytałem już kilka artykułów i przeprowadziłem eksperymenty, ale bez większego szczęścia. Chciałbym uzyskać poradę od EKSPERTÓW, aby to zadziałało. Oto co dotychczas zrobiłem: Mam dane …

4
Uczysz regresji porządkowej w R?
Pracuję nad projektem i potrzebuję zasobów, aby przyspieszyć. Zbiór danych obejmuje około 35 000 obserwacji na około 30 zmiennych. Około połowa zmiennych jest jakościowa, a niektóre mają wiele różnych możliwych wartości, tzn. Jeśli podzielisz zmienne jakościowe na zmienne obojętne, będziesz miał znacznie więcej niż 30 zmiennych. Ale nadal prawdopodobnie rzędu …

1
Jak ustalić, czy podzbiory można narysować na normalnym schemacie Eulera?
W niektórych przypadkach narysowanie diagramów Eulera z nakładającymi się okręgami może być niemożliwe do przedstawienia wszystkich nakładających się podzbiorów we właściwych proporcjach. Ten typ danych wymaga następnie użycia wielokątów lub innych cyfr do przedstawienia każdego zestawu. Kiedy mam do czynienia z danymi opisującymi nakładające się podzbiory, jak mogę dowiedzieć się, …

4
Wykrywanie wartości odstających zużycia gazu - projekt sieci neuronowej. Złe wyniki
Próbowałem wykryć wartości odstające w zużyciu gazu energetycznego w niektórych holenderskich budynkach, budując model sieci neuronowej. Mam bardzo złe wyniki, ale nie mogę znaleźć przyczyny. Nie jestem ekspertem, dlatego chciałbym zapytać, co mogę poprawić i co robię źle. Oto pełny opis: https://github.com/denadai2/Gas-consumption-outliers . Sieć neuronowa jest siecią FeedFoward z propagacją …


5
Kwalifikacje do programów doktoranckich
Yann LeCun wspomniał w swoim AMA , że uważa, że ​​posiadanie doktoratu jest bardzo ważne, aby uzyskać pracę w jednej z najlepszych firm. Mam mistrzów w dziedzinie statystyki, a mój student studiował ekonomię i matematykę stosowaną, ale teraz zajmuję się programami doktoranckimi. Większość programów mówi, że nie ma absolutnie niezbędnych …
10 education 

2
Czy to porównanie Neo4j z czasem wykonania RDBMS jest prawidłowe?
Tło: Poniżej znajduje się książka Graph Graph , która obejmuje test wydajności wspomniany w książce Neo4j in Action : Relacje na wykresie w naturalny sposób tworzą ścieżki. Zapytanie lub przejście przez wykres obejmuje następujące ścieżki. Ze względu na zasadniczo zorientowany na ścieżkę charakter modelu danych, większość operacji opartych na ścieżkach …
10 databases  nosql  neo4j 

3
Jakie są ograniczenia pamięci R.
Oceniając „ Zastosowane modelowanie predykcyjne ” recenzent stwierdza : Jedną z moich krytyk pedagogiki uczenia statystycznego (SL) jest brak uwzględnienia wydajności obliczeń w ocenie różnych technik modelowania. Z naciskiem na ładowanie i weryfikację krzyżową w celu dostrojenia / przetestowania modeli, SL wymaga dużej mocy obliczeniowej. Dodaj do tego ponowne próbkowanie, …
10 apache-hadoop  r 


5
LSTM lub inny pakiet RNN dla R.
Widziałem imponujący wynik z modeli LSTM produkujących teksty podobne do Szekspira. Zastanawiałem się, czy istnieje pakiet LSTM dla R. Poszukałem go, ale znalazłem tylko pakiety dla Pythona i Julii. (może jest jakiś problem z wydajnością, który wyjaśnia, dlaczego te programy są bardziej preferowane niż R) Czy wiesz o pakiecie LSTM …
10 r  neural-network  rnn 

3
Jak zakodować klasę z 24 000 kategorii?
Obecnie pracuję nad modelem regresji logistycznej dla genomiki. Jednym z pól wejściowych, które chcę uwzględnić jako zmienną towarzyszącą, jest genes. Istnieje około 24 000 znanych genów. Istnieje wiele funkcji o tym poziomie zmienności w biologii obliczeniowej i potrzebne są setki tysięcy próbek. Jeśli ja LabelEncoder()te geny 24K a potem OneHotEncoder()oni …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.