Pytania otagowane jako data-mining

Eksploracja danych wykorzystuje metody sztucznej inteligencji w kontekście bazy danych do odkrywania nieznanych wcześniej wzorców. W związku z tym metody te zwykle nie są nadzorowane. Jest ściśle powiązany, ale nie identyczny z uczeniem maszynowym. Kluczowymi zadaniami eksploracji danych są analiza skupień, wykrywanie wartości odstających i wyszukiwanie reguł asocjacyjnych.


8
Wykonywanie grupowania K-średnich (lub jego bliskich krewnych) za pomocą macierzy odległości, a nie danych punkt po cechach
Chcę wykonać K-oznacza grupowanie obiektów, które mam, ale obiekty te nie są opisywane jako punkty w przestrzeni, tj. Przez objects x featureszestaw danych. Jestem jednak w stanie obliczyć odległość między dowolnymi dwoma obiektami (jest ona oparta na funkcji podobieństwa). Pozbywam się macierzy odległości objects x objects. Wcześniej zaimplementowałem K-średnich, ale …

3
Pierwszy krok dla dużych zbiorów danych (
Załóżmy, że analizujesz ogromny zestaw danych w wysokości miliardów obserwacji dziennie, gdzie każda obserwacja ma kilka tysięcy rzadkich i prawdopodobnie zbędnych zmiennych liczbowych i kategorialnych. Powiedzmy, że istnieje jeden problem regresji, jeden niezrównoważony problem klasyfikacji binarnej i jedno zadanie „dowiedzieć się, które predyktory są najważniejsze”. Myślałem o tym, jak podejść …

5
Nowy rewolucyjny sposób eksploracji danych?
Poniższy fragment pochodzi z wywiadu przeprowadzonego przez Schwager's Hedge Fund Market Wizzards (maj 2012 r.), Jaffraya Woodriffa, zarządzającego funduszem hedgingowym, który odnosi sukcesy: Na pytanie: „Jakie są najgorsze błędy popełniane podczas eksploracji danych?”: Wiele osób uważa, że ​​są w porządku, ponieważ używają danych z próby do szkolenia i danych z …

4
Czy drzewa decyzyjne są prawie zawsze drzewami binarnymi?
Niemal każdy przykład drzewa decyzyjnego, z którym się zetknąłem, jest drzewem binarnym. Czy to jest dość uniwersalne? Czy większość standardowych algorytmów (C4.5, CART itp.) Obsługuje tylko drzewa binarne? Z tego, co zbieram, CHAID nie ogranicza się do drzew binarnych, ale wydaje się, że jest to wyjątek. Dwukierunkowy podział, po którym …

2
Cross Validation (generalizacja błędów) po wyborze modelu
Uwaga: przypadek to n >> p Czytam Elementy uczenia statystycznego i jest wiele wzmianek o „właściwym” sposobie przeprowadzania walidacji krzyżowej (np. Strona 60, strona 245). W szczególności moje pytanie brzmi: jak ocenić ostateczny model (bez osobnego zestawu testowego) za pomocą k-fold CV lub bootstrapowania, gdy przeprowadzono wyszukiwanie modelu? Wydaje się, …

2
Jeśli grupowanie k-średnich jest formą modelowania mieszanki Gaussa, czy można go zastosować, gdy dane nie są normalne?
Czytam Bishopa o algorytmie EM dla GMM i związku między GMM a k-średnich. W tej książce jest napisane, że k-średnich jest trudną wersją GMM. Zastanawiam się, czy to implikuje, że jeśli dane, które próbuję skupić, nie są gaussowskie, nie mogę użyć k-średnich (a przynajmniej nie nadaje się do użycia)? Na …



2
Funkcja „ciekawości” dla pytań StackExchange
Próbuję stworzyć pakiet do eksploracji danych dla stron StackExchange, a w szczególności utknąłem w próbie ustalenia „najciekawszych” pytań. Chciałbym wykorzystać wynik pytania, ale usuwam stronniczość ze względu na liczbę wyświetleń, ale nie wiem, jak podejść do tego rygorystycznie. W idealnym świecie mógłbym sortować pytania, obliczając , gdzievjest liczbą głosów, anjest …

1
Odległy nadzór: nadzorowany, częściowo nadzorowany, czy oba?
„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …

2
Zwiększenie: dlaczego współczynnik uczenia się nazywa się parametrem regularyzacji?
Szybkość uczenia się parametr ( ) gradientu Zwiększenie kurczy wkładu każdego nowego modelu podstawowego -typically zawiera drzewo płytka, że dodaje się w serii. Wykazano, że radykalnie zwiększa dokładność zestawu testowego, co jest zrozumiałe, ponieważ przy mniejszych krokach minimum funkcji straty można uzyskać bardziej precyzyjnie. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …

3
Jaka jest praktyczna różnica między regułami asocjacji a drzewami decyzyjnymi w eksploracji danych?
Czy istnieje naprawdę prosty opis praktycznych różnic między tymi dwiema technikami? Oba wydają się być używane do nadzorowanego uczenia się (chociaż reguły stowarzyszenia mogą również obsługiwać bez nadzoru). Oba można wykorzystać do przewidywania Znalazłem najbliżej „dobrego” opisu z podręcznika Statsoft . Mówią, że Reguły stowarzyszenia są używane do: ... wykrywają …



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.