Nauka danych

3

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale …

11 data-mining statistics predictive-modeling accuracy

2

Księgowość przebiegów i wyników eksperymentów

Jestem naukowcem i lubię testować realne rozwiązania, więc często przeprowadzam wiele eksperymentów. Na przykład, jeśli obliczam wynik podobieństwa między dokumentami, może chciałbym wypróbować wiele miar. W rzeczywistości dla każdego pomiaru może być konieczne wykonanie kilku przebiegów w celu przetestowania wpływu niektórych parametrów. Do tej pory śledziłem wejścia przebiegów i ich …

11 tools experiments

3

Uczenie się funkcji bez nadzoru dla NER

Wdrożyłem system NER z wykorzystaniem algorytmu CRF z moimi ręcznie wykonanymi funkcjami, które dawały całkiem dobre wyniki. Chodzi o to, że użyłem wielu różnych funkcji, w tym tagów POS i lematów. Teraz chcę zrobić ten sam NER dla innego języka. Problem polega na tym, że nie mogę używać tagów POS …

11 nlp text-mining feature-extraction

1

Implementacja t-SNE Python: dywergencja Kullbacka-Leiblera

t-SNE, jak w [1], działa poprzez stopniowe zmniejszanie dywergencji Kullbacka-Leiblera (KL), aż do spełnienia pewnego warunku. Twórcy t-SNE sugerują wykorzystanie dywergencji KL jako kryterium wydajności dla wizualizacji: można porównać rozbieżności Kullbacka-Leiblera zgłoszone przez t-SNE. Dziesięć razy można uruchomić t-SNE i wybrać rozwiązanie o najniższej dywergencji KL [2] Próbowałem dwóch implementacji …

11 machine-learning python

3

Wizualizacja danych do analizy wzorców (niezależna od języka, ale preferowana R)

Chcę wykreślić bajty z obrazu dysku, aby zrozumieć wzorzec w nich. Jest to głównie zadanie akademickie, ponieważ jestem prawie pewien, że ten wzorzec został stworzony przez program do testowania dysków, ale i tak chciałbym go przebudować. Wiem już, że wzór jest wyrównany, z częstotliwością 256 znaków. Mogę wyobrazić sobie dwa …

11 r visualization

4

Praca z klastrami HPC

Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za bardzo frustrujący. Zwykle dzieje się tak, że piszę …

11 bigdata data-mining

4

Gdzie mogę pobrać dane historyczne dotyczące kapitalizacji rynku i dziennych obrotów dla akcji?

Istnieje wiele źródeł, które dostarczają historyczne dane o zapasach, ale podają tylko pola OHLC wraz z objętością i skorygowanym zamknięciem. Kilka źródeł, które znalazłem, dostarcza zestawów danych o kapitalizacji rynkowej, ale są one ograniczone do akcji w USA. Yahoo Finance udostępnia te dane w trybie online, ale nie ma możliwości …

11 dataset

3

Jak przetwarzać zapytania w języku naturalnym?

Jestem ciekawy zapytań w języku naturalnym. Stanford ma coś, co wygląda na silny zestaw oprogramowania do przetwarzania języka naturalnego . Widziałem także bibliotekę Apache OpenNLP i architekturę ogólną dla inżynierii tekstu . Istnieje ogromna liczba zastosowań przetwarzania języka naturalnego, co sprawia, że dokumentacja tych projektów jest trudna do szybkiego przyswojenia. …

11 nlp

3

Zestaw danych / pytanie badawcze z zakresu Data Science do pracy magisterskiej z zakresu statystyki

Chciałbym zbadać „naukę danych”. Termin ten wydaje mi się trochę niejasny, ale spodziewam się, że będzie wymagał: uczenie maszynowe (zamiast tradycyjnych statystyk); wystarczająco duży zestaw danych, aby przeprowadzić analizy w klastrach. Jakie są dobre zbiory danych i problemy, dostępne dla statystyk z pewnym doświadczeniem programistycznym, których mogę użyć do zbadania …

11 statistics education knowledge-base definitions

4

Czy regresja logistyczna jest w rzeczywistości algorytmem regresji?

Zazwyczaj definicja regresji (o ile mi wiadomo) przewiduje ciągłą zmienną wyjściową z danego zestawu zmiennych wejściowych . Regresja logistyczna jest algorytmem klasyfikacji binarnej, więc daje wyniki jakościowe. Czy to naprawdę algorytm regresji? Jeśli tak, to dlaczego?

11 algorithms logistic-regression

5

Kiedy usunąć skorelowane zmienne

Czy ktoś może zasugerować, jaki jest właściwy etap usuwania skorelowanych zmiennych przed inżynierią cech lub po inżynierii cech?

11 machine-learning feature-selection data-science-model

3

Co to jest LSTM, BiLSTM i kiedy z nich korzystać?

Jestem bardzo nowy w głębokim uczeniu się i jestem szczególnie zainteresowany wiedzą, czym są LSTM i BiLSTM i kiedy z nich korzystać (główne obszary zastosowań). Dlaczego LSTM i BILSTM są bardziej popularne niż RNN? Czy możemy wykorzystać te architektury głębokiego uczenia się do rozwiązywania problemów bez nadzoru?

11 machine-learning deep-learning rnn lstm

1

Liczba i rozmiar gęstych warstw w CNN

Większość sieci, które widziałem, ma jedną lub dwie gęste warstwy przed ostatnią warstwą softmax. Czy istnieje jakiś zasadny sposób wyboru liczby i wielkości gęstych warstw? Czy dwie gęste warstwy są bardziej reprezentatywne niż jedna dla tej samej liczby parametrów? Czy należy stosować usuwanie przed każdą gęstą warstwą, czy tylko raz?

11 convnet

2

Dziwne zachowanie z optymalizatorem Adama podczas treningu zbyt długo

Próbuję wytrenować pojedynczy perceptron (1000 jednostek wejściowych, 1 wyjście, brak ukrytych warstw) na 64 losowo generowanych punktach danych. Używam Pytorch za pomocą optymalizatora Adama: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = torch.nn.Linear(D_in, D_out) …

11 perceptron pytorch

3

Jak używać GAN do ekstrakcji funkcji bez nadzoru z obrazów?

Zrozumiałem, jak działa GAN, podczas gdy dwie sieci (generatywna i dyskryminacyjna) konkurują ze sobą. Zbudowałem DCGAN (GAN z dyskryminatorem splotowym i generatorem dekonwolucji), który teraz z powodzeniem generuje ręcznie pisane cyfry podobne do tych w zestawie danych MNIST. Dużo czytałem o aplikacjach GAN do wyodrębniania funkcji z obrazów. Jak wykorzystać …

11 feature-extraction unsupervised-learning gan