Porównanie współczynników regresji tego samego modelu w różnych zestawach danych


12

Oceniam dwa (2) czynniki chłodnicze (gazy), które zostały użyte w tym samym systemie chłodniczym. Do oceny mam dane dotyczące nasyconej temperatury ssania ( ), temperatury skraplania ( ) i natężenia prądu ( ). Istnieją dwa (2) zestawy danych; 1. czynnik chłodniczy ( ) i 2. czynnik chłodniczy ( ). Używam liniowego, wielowymiarowego ( & ) modelu wielomianowego trzeciego rzędu do analiz regresji. Chciałbym ustalić, o ile mniej / więcej natężenia prądu (lub podobnej miary jak porównanie wydajności) średnio jako procent jest pobierany przez drugi czynnik chłodniczy.D Y R 1 R 2 S DSDYR1R2SD

Moją pierwszą myślą było:

  1. Określ model do użycia:Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3
  2. Wyprowadź współczynniki ( ) z danych wyjściowych ( ).R 1biR1
  3. Używając tych współczynników, dla każdego & w danych , obliczyć każdy oczekiwany remis wzmacniacza ( ), a następnie średnią.D R 2 YSDR2Y^
  4. Porównaj średnią z faktycznym średnim wzmacniacza ( ) danych . Y2R2Y^Y2R2
  5. percent (%) change=(Y2Y^)/Y^

Ponieważ jednak drugi czynnik chłodniczy ma nieco inne właściwości termiczne i wprowadzono niewielkie zmiany w układzie chłodniczym (korekty TXV i przegrzania), nie sądzę, aby ta „podstawowa metoda porównania” była dokładna.

Kolejną moją myślą było wykonanie dwóch (2) oddzielnych analiz regresji:

Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23

a następnie, dla nasyconej temperatury ssania ( S ), porównaj współczynniki ( a1 vs b1 ) w następujący sposób:

% change=b1a1a1

Jednak ponownie współczynniki te powinny być różnie ważone. Dlatego wyniki byłyby wypaczone.

Wydaje mi się, że mógłbym użyć testu Z do ustalenia, jak różnie ważone są współczynniki, ale nie jestem pewien, czy w pełni rozumiem znaczenie wyniku: . Ale nadal nie dałoby mi to wskaźnika wydajności, który jest ogólnym celem.z=(a1b1)/SEa12+SEb12)


1
1. Model wielomianowy jest modelem liniowym, ponieważ ma współczynnik liniowy. 2. Próbuję zrozumieć twoje pytanie. Jeśli układ chłodniczy został zmodyfikowany między czasem użycia R1 i R2, to tak naprawdę nie są to „ten sam układ chłodniczy” (wiersz 1), prawda? 3. Dlaczego w swoim drugim podejściu zacząłeś porównywać współczynniki S? 4. Czy rozważasz wprowadzenie współzmiennych „czynników chłodniczych” o poziomach R1 i R2 do dopasowania wielomianowego (być może z interakcją)? Jego współczynnik może odpowiedzieć na pytanie.
qoheleth

@ qoheleth 1. Nie jestem pewien, czy podążam za twoim tokiem myślenia ... Współczynnik jest zawsze liniowy - jest liczbą. Kiedy zatem współczynnik nie byłby liniowy? 2. Prawidłowo, system chłodzenia został nieznacznie zmieniony, ale tylko w celu zapewnienia tej samej temperatury wyjściowej dla obu czynników chłodniczych - „jabłka na jabłka”. 3. „S” jest jedyną interesującą zmienną dla tego konkretnego porównania. 4. Czytałem o zmiennej zmiennej współzmiennej / zmiennej interakcji, ale nie rozumiem znaczenia współczynników za pomocą takiej metody. Czy potrafisz rozwinąć interpretację wyników? Dziękuję Ci.
gth826a

1. ze statystycznego punktu widzenia liczy się liniowość rzeczy, które szacujesz, więc model wielomianowy jest liniowy. Przykładem modelu nieliniowego może być funkcja mitscherlicha y = alfa (1-exp (beta-lambda * X)), gdzie szacujemy alfa / beta / lambda. 3. Co tak naprawdę próbujesz przetestować? czy jest to współczynnik S? lub Y? Jeśli jest to S, dlaczego Twoja pierwsza próba jest porównaniem w \ hat {Y}?
qoheleth

Y-hat byłby: rzeczywisty S & D z 2. zestawu danych zastosowany z koefektami uzyskanymi z 1. zestawu danych. Ta metoda jest powszechna w analizach energetycznych w ramach „Performance Contract” przy porównywaniu zużycia energii przez poprzedni sprzęt do zużycia energii po modernizacji / przebudowie / remoncie / itp. Równanie byłoby następujące: zużycie energii = y-hat = obciążenie podstawowe + energia / stopień-dzień * stopień-dni ... gdzie energia / stopień-dzień jest współczynnikiem uzyskanym z analizy regresji linii podstawowej, a stopień-dni pochodzi z renowacji . „Co byś zużył”, gdybyś nie zrobił tego scenariusza projektu ...
gth826a

1
Wygląda więc na to, że ostatecznie chcesz porównać Y. Powiedziałbym, że zapomnij o obliczeniu% zmiany współczynników, w obecności składników wyższego rzędu (S ^ 2, S ^ 3 itd.), Współczynniki nie są takie, jak myślisz oni są. Skup się na Y. Pytanie, które pozostaje dla mnie niejasne, brzmi: czy mówisz, że S&D w R2 oznacza inne rzeczy niż S&D w R1? Jeśli nie, możesz po prostu dopasować jeden model do połączonego zestawu danych z dodatkową zmienną towarzyszącą (zmienną X) o nazwie czynnik chłodniczy (r1 lub r2) i spojrzeć na jego współczynnik, aby wyciągnąć wniosek, zakładając, że twój model jest odpowiedni.
qoheleth

Odpowiedzi:


2

Z idealnego prawa gazu tutaj , , co sugeruje model proporcjonalny. Upewnij się, że twoje urządzenia są w temperaturze bezwzględnej. Pytanie o proporcjonalny wynik oznaczałoby proporcjonalny model błędu. Zastanów się, być może , a następnie w przypadku wielokrotnej regresji liniowej można użyć , biorąc logarytmy wartości Y, D i S, tak więc wygląda to tak, jakby , gdzie indeksy dolne oznaczają „logarytm z”. Teraz może to działać lepiej niż model liniowy, którego używasz, a odpowiedzi są wtedy typem błędu względnego.PV=nRT ln ( Y ) = ln ( a ) + b ln ( D ) +Y=aDbScY l = a l + b D l + c S l lln(Y)=ln(a)+bln(D)+cln(S)Yl=al+bDl+cSll

Aby sprawdzić, jakiego typu modelu użyć, wypróbuj jeden i sprawdź, czy reszty są homoscedastyczne. Jeśli tak nie jest, to masz tendencyjny model , a następnie zrób coś innego, na przykład modeluj logarytmy, jak powyżej, jedną lub więcej odwrotności danych x lub y, pierwiastków kwadratowych, kwadratu, potęgowania itd., Aż reszty będą homoscedastyczne. Jeśli model nie może dać reszt homoscedastycznych, zastosuj wielokrotną liniową regresję Theila, z cenzurą w razie potrzeby.

To, jak normalnie dane są rozmieszczone na osi y, nie jest wymagane, ale wartości odstające mogą i często zniekształcają znacząco wyniki parametru regresji. Jeśli nie można znaleźć homoscedastyczności, nie należy stosować zwykłych najmniejszych kwadratów i należy wykonać inny rodzaj regresji, np. Regresja ważona, regresja Theil, najmniejszych kwadratów x, regresja Deminga i tak dalej. Ponadto błędy nie powinny być skorelowane szeregowo.

Znaczenie wyniku: , może, ale nie musi, być istotnych. Zakłada się, że całkowita wariancja jest sumą dwóch niezależnych wariancji. Innymi słowy, niezależność to ortogonalność (prostopadłość) na wykresie . Oznacza to, że całkowita zmienność (wariancja) jest następnie zgodna z twierdzeniem Pitagorasa, , co może, ale nie musi dotyczyć twoich danych. Jeżeli tak jest, wówczas -statistic jest względną odległość, to znaczy różnica sposób (odległość) podzielona przez pitagorejsko AKA wektora dodanie błąd standardowy (SE), przy czym odchylenia standardowego (SDS) podzielona autor:z=(a1b1)/SEa12+SEb12)x,yH=+A2+O2zN, gdzie SE są odległościami. Dzielenie jednej odległości przez drugą następnie normalizuje je, tj. Różnicę średnich podzieloną przez błąd całkowity (standardowy), który ma wówczas postać, aby można było zastosować ND (0,1) w celu znalezienia prawdopodobieństwa.

Co się stanie, jeśli miary nie będą niezależne, i jak można to sprawdzić? Możesz pamiętać z geometrii, że trójkąty, które nie są ustawione pod kątem prostym, dodają swoje boki jako , jeśli nie odśwież swoją pamięć tutaj . Oznacza to, że gdy między osiami jest coś innego niż kąt 90 stopni, musimy uwzględnić, jaki jest ten kąt w obliczeniach całkowitej odległości. Najpierw przypomnij sobie, czym jest korelacja, znormalizowana kowariancja. To dla całkowitego dystansu i korelacji staje sięσ T ρ A , B σ 2 T = σ 2 A + σ 2 B - 2 σ A σ B ρ A , BC2=A2+B22ABcos(θ),θ=(A,B)σTρA,BσT.2)=σZA2)+σb2)-2)σZAσbρZA,b. Innymi słowy, jeśli twoje odchylenia standardowe są skorelowane (np. Parami), nie są one niezależne.


„Aby sprawdzić, jakiego typu modelu użyć, wypróbuj jeden i sprawdź, czy reszty są homoscedastyczne”, tak, pewnie… z wyjątkiem tego, że w ogóle nie przyjmujesz tego założenia, a nawet jeśli jest ono poprawne - w żaden sposób nie zapewnia, że masz „dobry” model.
Repmat

Jeśli używa się OLS, a reszty są heteroscedastyczne, to na pewno ma się tendencyjny model. Homoscedastyczność jest wymogiem OLS, pokazanym tutaj . Posiadanie dobrego modelu wymaga innych warunków, takich jak unikanie pomijanego odchylenia zmiennej , ale posiadanie seryjnych nieskorelowanych błędów oraz liniowość modelu względem zmiennej zależnej.
Carl

Możesz mieć obiektywny i / lub spójny model (szacunki), w którym reszty są heteroskedlastyczne. Oznaczałoby to tylko, że zwykłe procedury wnioskowania nie działają
Repmat

Heteroscedastyczność spłaszcza nachylenie, nawet jeśli wartość odstająca to naprawi, karą byłyby duże przedziały ufności i kiepski model. Nie użyłby takiego modelu, ale tak, można zrobić kiepskie modele. Literatura medyczna jest ich pełna.
Carl

Pierwsza część twojego komentarza jest po prostu błędna. Nie jestem nawet pewien, co to znaczy.
Repmat
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.