Statystyki i duże zbiory danych algorithms

3

Kto stworzył pierwszy standardowy stół normalny?

Mam zamiar przedstawić standardową tabelę normalną w mojej klasie wprowadzającej i zastanawiam się: kto stworzył pierwszą standardową tabelę normalną? Jak to zrobili, zanim pojawiły się komputery? Drżę na myśl o kimś brutalnym, który ręcznie oblicza tysiąc sum Riemanna.

61 normal-distribution algorithms history tables

7

Najlepszy algorytm PCA dla ogromnej liczby funkcji (> 10 KB)?

Wcześniej zapytałem o to na StackOverflow, ale wydaje się, że może być bardziej odpowiednie tutaj, biorąc pod uwagę, że nie otrzymało żadnych odpowiedzi na SO. To trochę na styku statystyki i programowania. Muszę napisać kod, aby wykonać PCA (Principal Component Analysis). Przejrzałem dobrze znane algorytmy i zaimplementowałem ten , który, …

54 pca algorithms model-evaluation high-dimensional

6

Wydajna regresja liniowa online

Analizuję niektóre dane, w których chciałbym przeprowadzić zwykłą regresję liniową, jednak nie jest to możliwe, ponieważ mam do czynienia z ustawieniem on-line z ciągłym strumieniem danych wejściowych (które szybko stają się zbyt duże dla pamięci) i potrzebują zaktualizować oszacowania parametrów podczas ich zużycia. tzn. nie mogę po prostu załadować wszystkiego …

53 time-series regression algorithms real-time

9

Pomiar entropii / informacji / wzorów matrycy binarnej 2d

Chcę zmierzyć entropię / gęstość informacji / podobieństwo wzorca dwuwymiarowej macierzy binarnej. Pokażę kilka zdjęć w celu wyjaśnienia: Ten ekran powinien mieć raczej wysoką entropię: ZA) To powinno mieć średnią entropię: B) Wreszcie te zdjęcia powinny mieć entropię bliską zeru: DO) RE) MI) Czy istnieje jakiś indeks, który przechwytuje entropię, …

53 algorithms binary-data entropy pattern-recognition information

7

Wykrywanie okresu ogólnych szeregów czasowych

Ten post jest kontynuacją kolejnego postu związanego z ogólną metodą wykrywania wartości odstających w szeregach czasowych . Zasadniczo w tym momencie interesuje mnie solidny sposób odkrywania okresowości / sezonowości ogólnych szeregów czasowych dotkniętych dużym hałasem. Z punktu widzenia programisty chciałbym prosty interfejs, taki jak: unsigned int discover_period(vector<double> v); Gdzie vjest …

53 time-series algorithms frequency real-time

10

Jaki jest dobry algorytm do oszacowania mediany ogromnego zestawu danych do odczytu?

Szukam dobrego algorytmu (co oznacza minimalne obliczenia, minimalne wymagania dotyczące miejsca do przechowywania), aby oszacować medianę zestawu danych, który jest zbyt duży, aby go zapisać, tak aby każdą wartość można było odczytać tylko raz (chyba że jawnie zapiszesz tę wartość). Dane nie mają granic, które można założyć. Przybliżenia są w …

48 algorithms median large-data

5

Zoptymalizowane implementacje algorytmu Random Forest

Zauważyłem, że istnieje kilka implementacje losowej lasu, takich jak ALGLIB, gofry i kilka pakietów, takich jak R randomForest. Czy ktoś może mi powiedzieć, czy te biblioteki są wysoce zoptymalizowane? Czy są one w zasadzie równoważne losowym lasom opisanym w Elementach statystycznego uczenia się, czy też dodano wiele dodatkowych sztuczek? Mam …

44 random-forest algorithms model-evaluation

5

Jaka jest różnica między algorytmami do przodu i do tyłu i algorytmami Viterbi?

Chcę wiedzieć, jakie są różnice między algorytmem do przodu i do tyłu i algorytmem Viterbiego do wnioskowania w ukrytych modelach Markowa (HMM).

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

6

Jaki algorytm stosuje się w regresji liniowej?

Zwykle słyszę o „zwykłych najmniejszych kwadratach”. Czy to najczęściej stosowany algorytm regresji liniowej? Czy istnieją powody, by użyć innego?

42 regression least-squares algorithms computational-statistics numerics

3

Jakie są różnice między ukrytymi modelami Markowa a sieciami neuronowymi?

Po prostu moczyłem stopy w statystykach, więc przepraszam, jeśli to pytanie nie ma sensu. Użyłem modeli Markowa do przewidywania stanów ukrytych (nieuczciwe kasyna, rzuty kostką itp.) Oraz sieci neuronowych do badania kliknięć użytkowników w wyszukiwarce. Oba miały ukryte stany, które próbowaliśmy rozgryźć na podstawie obserwacji. O ile mi wiadomo, oba …

40 data-mining algorithms neural-networks markov-process

6

Przybliżone za pomocą symulacji Monte Carlo

Ostatnio przyglądałem się symulacji Monte Carlo i używałem jej do przybliżania stałych, takich jak (okrąg wewnątrz prostokąta, obszar proporcjonalny).ππ\pi Nie jestem jednak w stanie wymyślić odpowiedniej metody aproksymacji wartości eee [liczby Eulera] przy użyciu integracji Monte Carlo. Czy masz jakieś wskazówki, jak to zrobić?

35 simulation monte-carlo algorithms random-generation numerical-integration

6

Eksploracja danych: jak powinienem znaleźć formę funkcjonalną?

Jestem ciekaw powtarzalnych procedur, które mogą być wykorzystane do odkrywania postaci funkcyjnej funkcji y = f(A, B, C) + error_term, gdzie jest mój tylko wejście jest zbiorem obserwacji ( y, A, Bi C). Należy pamiętać, że funkcjonalna forma fjest nieznana. Rozważ następujący zestaw danych: AA BB CC DD EE FF …

34 regression machine-learning algorithms model-selection data-mining

1

Różnica między standardowymi a sferycznymi algorytmami k-średnich

Chciałbym zrozumieć, jaka jest główna różnica w implementacji między standardowymi a sferycznymi algorytmami klastrowania k-średnich. Na każdym etapie k-średnich oblicza odległości między wektorami elementów i centroidami gromady i ponownie przypisuje dokument do tej gromady, której centroid jest najbliższy. Następnie wszystkie centroidy są przeliczane. W sferycznych średnich k wszystkie wektory są …

28 clustering data-mining algorithms k-means

3

Najlepszy algorytm bandyty?

Najbardziej znanym algorytmem bandyty jest górna granica ufności (UCB), która spopularyzowała tę klasę algorytmów. Od tego czasu zakładam, że są teraz lepsze algorytmy. Jaki jest obecnie najlepszy algorytm (pod względem wydajności empirycznej lub granic teoretycznych)? Czy ten algorytm jest w pewnym sensie optymalny?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

1

Jak zdefiniować warunek zakończenia opadania gradientu?

Właściwie chciałem zapytać, jak mogę zdefiniować warunek końcowy zejścia gradientu. Czy mogę to zatrzymać na podstawie liczby iteracji, tj. Biorąc pod uwagę wartości parametrów, powiedzmy, 100 iteracji? A może powinienem poczekać, aż różne wartości dwóch parametrów „nowy” i „stary” będą bardzo małe w stosunku do powiedzmy ? To na pewno …

24 algorithms optimization gradient-descent

Pytania otagowane jako algorithms