Statystyki i duże zbiory danych data-mining

3

Ujemny rozkład dwumianowy vs rozkład dwumianowy

Jaka jest różnica między ujemnym rozkładem dwumianowym a rozkładem dwumianowym? Próbowałem czytać online i odkryłem, że ujemny rozkład dwumianowy jest używany, gdy punkty danych są dyskretne, ale myślę, że nawet rozkład dwumianowy można zastosować do dyskretnych punktów danych.

22 categorical-data data-mining binomial negative-binomial

8

Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach

Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …

22 machine-learning clustering data-mining k-means distance

3

Pierwszy krok dla dużych zbiorów danych (

Załóżmy, że analizujesz ogromny zestaw danych w wysokości miliardów obserwacji dziennie, gdzie każda obserwacja ma kilka tysięcy rzadkich i prawdopodobnie zbędnych zmiennych liczbowych i kategorialnych. Powiedzmy, że istnieje jeden problem regresji, jeden niezrównoważony problem klasyfikacji binarnej i jedno zadanie „dowiedzieć się, które predyktory są najważniejsze”. Myślałem o tym, jak podejść …

21 r machine-learning data-mining large-data

5

Nowy rewolucyjny sposób eksploracji danych?

Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że są w porządku, ponieważ używają danych z próby do szkolenia i danych z …

21 data-mining curve-fitting out-of-sample

4

Czy drzewa decyzyjne są prawie zawsze drzewami binarnymi?

Niemal każdy przykład drzewa decyzyjnego, z którym się zetknąłem, jest drzewem binarnym. Czy to jest dość uniwersalne? Czy większość standardowych algorytmów (C4.5, CART itp.) Obsługuje tylko drzewa binarne? Z tego, co zbieram, CHAID nie ogranicza się do drzew binarnych, ale wydaje się, że jest to wyjątek. Dwukierunkowy podział, po którym …

21 machine-learning data-mining cart

2

Cross Validation (generalizacja błędów) po wyborze modelu

Uwaga: przypadek to n >> p Czytam Elementy uczenia statystycznego i jest wiele wzmianek o „właściwym” sposobie przeprowadzania walidacji krzyżowej (np. Strona 60, strona 245). W szczególności moje pytanie brzmi: jak ocenić ostateczny model (bez osobnego zestawu testowego) za pomocą k-fold CV lub bootstrapowania, gdy przeprowadzono wyszukiwanie modelu? Wydaje się, …

21 machine-learning model-selection data-mining cross-validation

2

Jeśli grupowanie k-średnich jest formą modelowania mieszanki Gaussa, czy można go zastosować, gdy dane nie są normalne?

Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …

21 clustering data-mining k-means gaussian-mixture

4

Jak sprawdzić, czy dane można oddzielić liniowo?

Dane mają wiele funkcji (np. 100), a liczba wystąpień wynosi około 100 000. Dane są rzadkie. Chcę dopasować dane za pomocą regresji logistycznej lub svm. Skąd mam wiedzieć, czy cechy są liniowe czy nieliniowe, aby móc użyć sztuczki jądra, jeśli jest nieliniowa?

21 machine-learning logistic svm data-mining

2

Gdzie i dlaczego lśni głębokie uczenie się?

W dzisiejszych czasach, gdy wszystkie media rozmawiają o tym, jak głęboko się uczyć, czytam kilka podstawowych rzeczy na ten temat. Właśnie odkryłem, że jest to kolejna metoda uczenia maszynowego do nauki wzorców z danych. Ale moje pytanie brzmi: gdzie świeci i dlaczego ta metoda świeci? Dlaczego teraz wszyscy o tym …

20 machine-learning data-mining deep-learning deep-belief-networks

2

Funkcja „ciekawości” dla pytań StackExchange

Próbuję stworzyć pakiet do eksploracji danych dla stron StackExchange, a w szczególności utknąłem w próbie ustalenia „najciekawszych” pytań. Chciałbym wykorzystać wynik pytania, ale usuwam stronniczość ze względu na liczbę wyświetleń, ale nie wiem, jak podejść do tego rygorystycznie. W idealnym świecie mógłbym sortować pytania, obliczając , gdzievjest liczbą głosów, anjest …

20 data-mining predictive-models

1

Odległy nadzór: nadzorowany, częściowo nadzorowany, czy oba?

„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …

20 machine-learning data-mining dataset references unsupervised-learning

2

Zwiększenie: dlaczego współczynnik uczenia się nazywa się parametrem regularyzacji?

Szybkość uczenia się parametr ( ) gradientu Zwiększenie kurczy wkładu każdego nowego modelu podstawowego -typically zawiera drzewo płytka, że dodaje się w serii. Wykazano, że radykalnie zwiększa dokładność zestawu testowego, co jest zrozumiałe, ponieważ przy mniejszych krokach minimum funkcji straty można uzyskać bardziej precyzyjnie. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …

19 machine-learning data-mining predictive-models boosting overfitting

3

Jaka jest praktyczna różnica między regułami asocjacji a drzewami decyzyjnymi w eksploracji danych?

Czy istnieje naprawdę prosty opis praktycznych różnic między tymi dwiema technikami? Oba wydają się być używane do nadzorowanego uczenia się (chociaż reguły stowarzyszenia mogą również obsługiwać bez nadzoru). Oba można wykorzystać do przewidywania Znalazłem najbliżej „dobrego” opisu z podręcznika Statsoft . Mówią, że Reguły stowarzyszenia są używane do: ... wykrywają …

19 data-mining association-rules

6

Programista chce włamać się do pola uczenia maszynowego

Jestem programistą (głównie .NET i Python około 5 lat doświadczenia). Co mogę zrobić, aby pomóc mi znaleźć pracę w dziedzinie uczenia maszynowego lub cokolwiek, co pozwoli mi zacząć pracę w tej dziedzinie? Czy studia podyplomowe są trudnym wymogiem?

19 machine-learning data-mining careers

6

Jaka jest różnica między eksploracją danych a analizą statystyczną?

Jaka jest różnica między eksploracją danych a analizą statystyczną? Na pewnym tle moja edukacja statystyczna była, jak sądzę, raczej tradycyjna. Stawia się konkretne pytanie, opracowuje się badania, a dane są gromadzone i analizowane, aby uzyskać wgląd w to pytanie. W rezultacie zawsze byłem sceptyczny wobec tego, co uważałem za „pogłębianie …

19 data-mining terminology analysis

Pytania otagowane jako data-mining