Nauka danych

1

Konwertuj kolumnę panda wartości int na typ datownika

Mam ramkę danych, która między innymi zawiera kolumnę liczby milisekund minionych od 1970-1-1. Muszę przekonwertować tę kolumnę liczb całkowitych na dane znacznika czasu, aby móc ostatecznie przekonwertować ją na kolumnę danych daty i godziny, dodając serię kolumn znaczników czasu do serii, która składa się wyłącznie z wartości daty i godziny …

13 python time-series data-cleaning pandas

5

Znaczenie funkcji w scikit-learn Random Forest wykazuje bardzo wysokie odchylenie standardowe

Używam scikit-learn Random Forest Classifier i chcę wykreślić znaczenie funkcji, tak jak w tym przykładzie . Jednak mój wynik jest zupełnie inny, w tym sensie, że odchylenie standardowe ważności cechy jest prawie zawsze większe niż samo znaczenie znaczenia (patrz załączony obraz). Czy możliwe jest takie zachowanie, czy też popełniam błędy …

13 python random-forest

1

Rozpoznawanie gramatyki w sekwencji rozmytych tokenów

Mam dokumenty tekstowe, które zawierają głównie listy pozycji. Każdy element jest grupą kilku tokenów z różnych typów: Imię, Nazwisko, Data urodzenia, Numer telefonu, Miasto, Zawód itp. Token to grupa słów. Przedmioty mogą leżeć w kilku liniach. Elementy z dokumentu mają mniej więcej tę samą składnię tokenów, ale niekoniecznie muszą być …

13 data-mining clustering text-mining time-series correlation

2

Wydajny algorytm do obliczania krzywej ROC dla klasyfikatora składającego się z zestawu rozłącznych klasyfikatorów

Załóżmy, że mam klasyfikatory C_1 ... C_n, które są rozłączne w tym sensie, że żadne dwa nie zwrócą wartości true na tym samym wejściu (np. Węzły w drzewie decyzyjnym). Chcę zbudować nowy klasyfikator, który jest połączeniem niektórych jego podzbiorów (np. Chcę zdecydować, które liście drzewa decyzyjnego dają pozytywną klasyfikację). Oczywiście …

13 algorithms

2

Jak obliczyć średnią z kolumny ramki danych i znaleźć 10% najlepszych

Jestem bardzo nowy w Scali i Sparkie i pracuję nad własnymi ćwiczeniami z wykorzystaniem statystyk baseballu. Korzystam z klasy przypadków, aby utworzyć RDD i przypisać schemat do danych, a następnie przekształcam go w DataFrame, dzięki czemu mogę używać SparkSQL do wybierania grup graczy poprzez ich statystyki, które spełniają określone kryteria. …

13 apache-spark scala

7

Jestem programistą, jak dostać się do dziedziny Data Science?

Po pierwsze ten termin brzmi tak niejasno. W każdym razie .. Jestem programistą. Jednym z języków, które mogę kodować, jest Python. Mówiąc o danych, mogę korzystać z SQL i mogę zgrywać dane. To, co do tej pory odkryłem po przeczytaniu tak wielu artykułów, że Data Science jest dobry w: 1- …

13 beginner career

1

Jaka jest różnica między generowaniem a wydobywaniem obiektów?

Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok? Czy istnieje metoda wzbogacenia przestrzeni funkcji?

13 machine-learning classification

1

Neo4j vs OrientDB vs Titan

Pracuję nad projektem z zakresu analizy danych związanym z eksploracją relacji społecznych i potrzebuję przechowywać dane w niektórych bazach danych z grafami. Początkowo jako bazę danych wybrałem Neo4j. Ale wydaje się, że Neo4j nie skaluje się dobrze. Alternatywą, którą odkryłem, są Titan i oriebtDB. Przejrzałem to porównanie na tych trzech …

13 data-mining graphs databases social-network-analysis

2

Wizualizacja treningu głębokiej sieci neuronowej

Próbuję znaleźć odpowiednik diagramów Hintona dla sieci wielowarstwowych, aby wykreślić wagi podczas treningu. Przeszkolona sieć jest nieco podobna do Deep SRN, tj. Ma dużą liczbę macierzy wielokrotnych ciężaru, co sprawiłoby, że jednoczesny wykres kilku diagramów Hintona byłby mylący wizualnie. Czy ktoś zna dobry sposób na wizualizację procesu aktualizacji wagi dla …

13 machine-learning neural-network visualization deep-learning

1

Losowe lasy online, dodając więcej pojedynczych drzew decyzji

Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych? Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy …

13 random-forest online-learning

4

Badanie algorytmów uczenia maszynowego: głębia zrozumienia a liczba algorytmów

Niedawno zapoznałem się z dziedziną Data Science (minęło około 6 miesięcy) i rozpocząłem podróż od Machine Learning Course przez Andrew Ng i post, który rozpoczął pracę nad specjalizacją Data Science przez JHU. Od strony praktycznej aplikacji pracowałem nad zbudowaniem modelu predykcyjnego, który przewidziałby ścieranie. Do tej pory korzystałem z glm, …

13 machine-learning

2

Jakie funkcje są ogólnie używane z drzew parsowanych w procesie klasyfikacji w NLP?

Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …

13 machine-learning nlp feature-selection feature-extraction

1

Gdy relacyjna baza danych ma lepszą wydajność niż brak relacyjnej

Kiedy relacyjna baza danych, taka jak MySQL, ma lepszą wydajność niż brak relacyjna, taka jak MongoDB? Pewnego dnia widziałem pytanie dotyczące Quory, dlaczego Quora nadal używa MySQL jako zaplecza i że ich wydajność jest nadal dobra.

13 bigdata performance databases nosql

2

Regresja liniowa z niesymetryczną funkcją kosztu?

Chcę przewidzieć pewną wartość i próbuję uzyskać prognozę która optymalizuje między byciem tak niskim, jak to możliwe, ale wciąż większym niż . Innymi słowy: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Myślę, że prosta regresja liniowa powinna dać sobie radę. Wiem więc trochę, …

13 machine-learning logistic-regression

6

Zestawy danych rozumiejące najlepsze praktyki

Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …

13 statistics dataset