Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Mam ramkę danych, która między innymi zawiera kolumnę liczby milisekund minionych od 1970-1-1. Muszę przekonwertować tę kolumnę liczb całkowitych na dane znacznika czasu, aby móc ostatecznie przekonwertować ją na kolumnę danych daty i godziny, dodając serię kolumn znaczników czasu do serii, która składa się wyłącznie z wartości daty i godziny …
Używam scikit-learn Random Forest Classifier i chcę wykreślić znaczenie funkcji, tak jak w tym przykładzie . Jednak mój wynik jest zupełnie inny, w tym sensie, że odchylenie standardowe ważności cechy jest prawie zawsze większe niż samo znaczenie znaczenia (patrz załączony obraz). Czy możliwe jest takie zachowanie, czy też popełniam błędy …
Mam dokumenty tekstowe, które zawierają głównie listy pozycji. Każdy element jest grupą kilku tokenów z różnych typów: Imię, Nazwisko, Data urodzenia, Numer telefonu, Miasto, Zawód itp. Token to grupa słów. Przedmioty mogą leżeć w kilku liniach. Elementy z dokumentu mają mniej więcej tę samą składnię tokenów, ale niekoniecznie muszą być …
Załóżmy, że mam klasyfikatory C_1 ... C_n, które są rozłączne w tym sensie, że żadne dwa nie zwrócą wartości true na tym samym wejściu (np. Węzły w drzewie decyzyjnym). Chcę zbudować nowy klasyfikator, który jest połączeniem niektórych jego podzbiorów (np. Chcę zdecydować, które liście drzewa decyzyjnego dają pozytywną klasyfikację). Oczywiście …
Jestem bardzo nowy w Scali i Sparkie i pracuję nad własnymi ćwiczeniami z wykorzystaniem statystyk baseballu. Korzystam z klasy przypadków, aby utworzyć RDD i przypisać schemat do danych, a następnie przekształcam go w DataFrame, dzięki czemu mogę używać SparkSQL do wybierania grup graczy poprzez ich statystyki, które spełniają określone kryteria. …
Po pierwsze ten termin brzmi tak niejasno. W każdym razie .. Jestem programistą. Jednym z języków, które mogę kodować, jest Python. Mówiąc o danych, mogę korzystać z SQL i mogę zgrywać dane. To, co do tej pory odkryłem po przeczytaniu tak wielu artykułów, że Data Science jest dobry w: 1- …
Czy ktoś może mi powiedzieć, jaki jest cel tworzenia funkcji? i dlaczego przed klasyfikacją obrazu konieczne jest wzbogacenie przestrzeni obiektów? Czy to konieczny krok? Czy istnieje metoda wzbogacenia przestrzeni funkcji?
Pracuję nad projektem z zakresu analizy danych związanym z eksploracją relacji społecznych i potrzebuję przechowywać dane w niektórych bazach danych z grafami. Początkowo jako bazę danych wybrałem Neo4j. Ale wydaje się, że Neo4j nie skaluje się dobrze. Alternatywą, którą odkryłem, są Titan i oriebtDB. Przejrzałem to porównanie na tych trzech …
Próbuję znaleźć odpowiednik diagramów Hintona dla sieci wielowarstwowych, aby wykreślić wagi podczas treningu. Przeszkolona sieć jest nieco podobna do Deep SRN, tj. Ma dużą liczbę macierzy wielokrotnych ciężaru, co sprawiłoby, że jednoczesny wykres kilku diagramów Hintona byłby mylący wizualnie. Czy ktoś zna dobry sposób na wizualizację procesu aktualizacji wagi dla …
Losowy las (RF) jest tworzony przez zespół drzew decyzyjnych (DT). Korzystając z workowania, każdy ID jest trenowany w innym podzbiorze danych. Czy zatem istnieje jakiś sposób na wdrożenie losowego lasu on-line poprzez dodanie większej liczby decyzji dotyczących nowych danych? Na przykład mamy próbki 10K i trenujemy 10 DT. Następnie otrzymujemy …
Niedawno zapoznałem się z dziedziną Data Science (minęło około 6 miesięcy) i rozpocząłem podróż od Machine Learning Course przez Andrew Ng i post, który rozpoczął pracę nad specjalizacją Data Science przez JHU. Od strony praktycznej aplikacji pracowałem nad zbudowaniem modelu predykcyjnego, który przewidziałby ścieranie. Do tej pory korzystałem z glm, …
Badam różne typy struktur drzewiastych. Dwie powszechnie znane struktury drzewa analizy składniowej to: a) drzewo analizy składniowej oparte na okręgach wyborczych oraz b) struktury drzewiaste analizy składniowej opartych na zależnościach. Potrafię używać generowania obu typów struktur drzewiastych przy użyciu pakietu Stanford NLP. Nie jestem jednak pewien, jak wykorzystać te struktury …
Kiedy relacyjna baza danych, taka jak MySQL, ma lepszą wydajność niż brak relacyjna, taka jak MongoDB? Pewnego dnia widziałem pytanie dotyczące Quory, dlaczego Quora nadal używa MySQL jako zaplecza i że ich wydajność jest nadal dobra.
Chcę przewidzieć pewną wartość i próbuję uzyskać prognozę która optymalizuje między byciem tak niskim, jak to możliwe, ale wciąż większym niż . Innymi słowy: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim Y(x) \right\} Myślę, że prosta regresja liniowa powinna dać sobie radę. Wiem więc trochę, …
Jestem studentem CS w zakresie eksploracji danych. Mój przełożony powiedział mi kiedyś, że zanim uruchomię jakiś klasyfikator lub zrobię cokolwiek z zestawem danych, muszę w pełni zrozumieć dane i upewnić się, że są czyste i poprawne. Moje pytania: Jakie są najlepsze praktyki, aby zrozumieć zestaw danych (wysokowymiarowe z atrybutami liczbowymi …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.