W wielokrotnej regresji liniowej rozumiem, że korelacje między resztą a predyktorami wynoszą zero, ale jaka jest oczekiwana korelacja między resztą a zmienną kryterium? Czy powinno być zerowe czy wysoce skorelowane? Jakie jest tego znaczenie?
Interesuje mnie regresja z sieciami neuronowymi. Sieci neuronowe z zerowymi ukrytymi węzłami + połączenia warstwy pomijanej są modelami liniowymi. Co z tymi samymi sieciami neuronowymi, ale z ukrytymi węzłami? Zastanawiam się, jaka byłaby rola połączeń pominięcia warstwy? Intuicyjnie powiedziałbym, że jeśli uwzględnisz połączenia pominięcia warstwy, wówczas model końcowy będzie sumą …
Zastanawiam się, czy istnieje jakiś algorytm, który mógłby dokonać klasyfikacji i regresji w tym samym czasie. Na przykład chciałbym, aby algorytm nauczył się klasyfikatora, a jednocześnie w ramach każdej etykiety uczy się również ciągłego celu. Zatem dla każdego przykładu szkolenia ma kategoryczną etykietę i ciągłą wartość. Mógłbym najpierw wyszkolić klasyfikatora, …
Mam kilka pytań dotyczących kary za kalenicę w kontekście najmniejszych kwadratów: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) Wyrażenie to sugeruje, że macierz kowariancji X jest zmniejszona w kierunku macierzy diagonalnej, co oznacza, że (zakładając, że zmienne są znormalizowane przed procedurą) korelacja między zmiennymi wejściowymi zostanie obniżona. Czy ta interpretacja …
W prostym modelu regresji y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, estymatory OLS i są skorelowane.ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} Wzór na korelację między dwoma estymatorami jest (jeśli poprawnie ją wyprowadziłem): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. Pytania: Jakie jest intuicyjne wytłumaczenie obecności korelacji? Czy obecność korelacji ma jakieś ważne implikacje? Wpis …
Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?Y∼XY∼XY \sim XkkkXXXYYY Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k , to Xv_1, Xv_2 ... Xv_k są pierwszymi k …
Moja zmienna zależna pokazana poniżej nie pasuje do żadnej znanej mi dystrybucji. Regresja liniowa wytwarza nieco nienormalne, wypaczone w prawo resztki, które w dziwny sposób odnoszą się do przewidywanego Y (drugi wykres). Wszelkie sugestie dotyczące transformacji lub innych sposobów uzyskania najbardziej aktualnych wyników i najlepszej dokładności predykcyjnej? Jeśli to możliwe, …
Chciałbym lepiej zrozumieć zalety / wady stosowania splajnów less lub wygładzających do wygładzania niektórych krzywych. Inną odmianą mojego pytania jest to, czy istnieje sposób na skonstruowanie wygładzającego splajnu w sposób, który da takie same wyniki, jak użycie lessa. Wszelkie odniesienia lub informacje są mile widziane.
W odpowiedzi na moje pytanie dotyczące OLS zastanawiam się: jakie wykresy diagnostyczne istnieją dla regresji kwantowej? (i czy jest ich implementacja R?) Szybka wyszukiwarka google już wymyśliła fabułę robaka (o której nigdy wcześniej nie słyszałem) i chętnie poznam więcej metod, o których możesz wiedzieć. (czy któryś z nich pochodzi z …
Ostatnio zacząłem studiować uczenie maszynowe, jednak nie rozumiałem intuicji stojącej za regresją logistyczną . Oto fakty dotyczące regresji logistycznej, które rozumiem. Jako podstawę hipotezy wykorzystujemy funkcję sigmoidalną . Rozumiem, dlaczego to poprawny wybór, ale dlaczego jest to tylko wybór nie rozumiem. Hipoteza reprezentuje prawdopodobieństwo, że odpowiednia wartość wyjściowa wynosi 1 …
W regresji termin interakcji usuwa oba powiązane efekty bezpośrednie. Czy porzucam interakcję, czy zgłaszam wynik? Interakcja nie była częścią oryginalnej hipotezy.
Jestem nieco zdezorientowany, jeśli zmienna niezależna (zwana również predyktorem lub cechą) w modelu statystycznym, na przykład w regresji liniowej , jest zmienną losową?XXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X
Wszystkie przykłady SVM są związane z klasyfikacją. Nie rozumiem, w jaki sposób można użyć SVM do regresji (regressor wektora pomocniczego) w regresji. Z mojego zrozumienia, SVM maksymalizuje margines między dwiema klasami, aby znaleźć optymalną hiperpłaszczyznę. Jak mogłoby to działać w przypadku problemu regresji?
Uczenie maszynowe (ML) w znacznym stopniu wykorzystuje techniki regresji liniowej i logistycznej. Powołuje się on także na technikach inżynierii (funkcja feature transform, kernelitp). Dlaczego nic o variable transformation(np power transformation) wymienione w ML? (Na przykład, nigdy nie słyszę o włączeniu roota lub logu do funkcji, zwykle używają po prostu wielomianów …
Obecnie używam Twitter AnomalyDetection w R: https://github.com/twitter/AnomalyDetection . Ten algorytm zapewnia wykrywanie anomalii szeregów czasowych dla danych z sezonowością. Pytanie: czy istnieją inne algorytmy podobne do tego (kontrola sezonowości nie ma znaczenia)? Próbuję zdobyć jak najwięcej algorytmów szeregów czasowych na moich danych, aby móc wybrać najlepszy jeden / zestaw.
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.