Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

1
Konwertuj kolumnę panda wartości int na typ datownika
Mam ramkę danych, która między innymi zawiera kolumnę liczby milisekund minionych od 1970-1-1. Muszę przekonwertować tę kolumnę liczb całkowitych na dane znacznika czasu, aby móc ostatecznie przekonwertować ją na kolumnę danych daty i godziny, dodając serię kolumn znaczników czasu do serii, która składa się wyłącznie z wartości daty i godziny …



2
Wydajny algorytm do obliczania krzywej ROC dla klasyfikatora składającego się z zestawu rozłącznych klasyfikatorów
Załóżmy, że mam klasyfikatory C_1 ... C_n, które są rozłączne w tym sensie, że żadne dwa nie zwrócą wartości true na tym samym wejściu (np. Węzły w drzewie decyzyjnym). Chcę zbudować nowy klasyfikator, który jest połączeniem niektórych jego podzbiorów (np. Chcę zdecydować, które liście drzewa decyzyjnego dają pozytywną klasyfikację). Oczywiście …
13 algorithms 

2
Jak obliczyć średnią z kolumny ramki danych i znaleźć 10% najlepszych
Jestem bardzo nowy w Scali i Sparkie i pracuję nad własnymi ćwiczeniami z wykorzystaniem statystyk baseballu. Korzystam z klasy przypadków, aby utworzyć RDD i przypisać schemat do danych, a następnie przekształcam go w DataFrame, dzięki czemu mogę używać SparkSQL do wybierania grup graczy poprzez ich statystyki, które spełniają określone kryteria. …

7
Jestem programistą, jak dostać się do dziedziny Data Science?
Po pierwsze ten termin brzmi tak niejasno. W każdym razie .. Jestem programistą. Jednym z języków, które mogę kodować, jest Python. Mówiąc o danych, mogę korzystać z SQL i mogę zgrywać dane. To, co do tej pory odkryłem po przeczytaniu tak wielu artykułów, że Data Science jest dobry w: 1- …
13 beginner  career 


1
Neo4j vs OrientDB vs Titan
Pracuję nad projektem z zakresu analizy danych związanym z eksploracją relacji społecznych i potrzebuję przechowywać dane w niektórych bazach danych z grafami. Początkowo jako bazę danych wybrałem Neo4j. Ale wydaje się, że Neo4j nie skaluje się dobrze. Alternatywą, którą odkryłem, są Titan i oriebtDB. Przejrzałem to porównanie na tych trzech …

2
Wizualizacja treningu głębokiej sieci neuronowej
Próbuję znaleźć odpowiednik diagramów Hintona dla sieci wielowarstwowych, aby wykreślić wagi podczas treningu. Przeszkolona sieć jest nieco podobna do Deep SRN, tj. Ma dużą liczbę macierzy wielokrotnych ciężaru, co sprawiłoby, że jednoczesny wykres kilku diagramów Hintona byłby mylący wizualnie. Czy ktoś zna dobry sposób na wizualizację procesu aktualizacji wagi dla …

1
Losowe lasy online, dodając więcej pojedynczych drzew decyzji
Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych? Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy …


2
Jakie funkcje są ogólnie używane z drzew parsowanych w procesie klasyfikacji w NLP?
Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …


2
Regresja liniowa z niesymetryczną funkcją kosztu?
Chcę przewidzieć pewną wartość i próbuję uzyskać prognozę która optymalizuje między byciem tak niskim, jak to możliwe, ale wciąż większym niż . Innymi słowy: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Myślę, że prosta regresja liniowa powinna dać sobie radę. Wiem więc trochę, …

6
Zestawy danych rozumiejące najlepsze praktyki
Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.