Podoba mi się ta zasada:
Jeśli potrzebujesz, aby poprowadzić linię oka (tj wykazują tendencję, że bez linii nie byłyby widoczne jako jasno), należy nie umieścić linię.
Ludzie są bardzo dobrzy w rozpoznawaniu wzorców (raczej jesteśmy po stronie dostrzegania trendów, które nie istnieją, niż przegapienia istniejącego trendu). Jeśli nie jesteśmy w stanie uzyskać trendu bez linii, możemy być całkiem pewni, że żaden zestaw trendów nie zostanie ostatecznie pokazany w zbiorze danych.
Mówiąc o drugim wykresie, jedynym wskaźnikiem niepewności punktów pomiarowych są dwa czerwone kwadraty C: O 1,2 przy 700 ° C. Rozprzestrzenienie się tych dwóch oznacza, że nie zaakceptowałbym np
- że w ogóle istnieje trend dla C: O 1.2
- że istnieje różnica między 2,0 a 3,6
- i na pewno zakrzywione modele przeładowują dane.
bez podania bardzo dobrych powodów. Byłby to jednak znowu model.
edycja: odpowiedz na komentarz Ivana:
Jestem chemikiem i powiedziałbym, że nie ma pomiaru bez błędu - to, co jest dopuszczalne, zależy od eksperymentu i przyrządu.
Ta odpowiedź nie jest sprzeczna z pokazywaniem błędu eksperymentalnego, ale wszystkim do pokazywania i uwzględniania go.
Moje rozumowanie polega na tym, że wykres pokazuje dokładnie jeden powtarzany pomiar, więc gdy dyskusja dotyczy stopnia złożoności modelu (tj. Linii poziomej, linii prostej, kwadratu ...), może to dać nam wyobrażenie o pomiarze błąd. W twoim przypadku oznacza to, że nie byłbyś w stanie dopasować znaczącego kwadratu (splajnu), nawet gdybyś miał twardy model (np. Równanie termodynamiczne lub kinetyczne) sugerujący, że powinien być kwadratowy - po prostu nie masz wystarczającej ilości danych .
Aby to zilustrować:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Oto dopasowanie liniowe wraz z 95% przedziałem ufności dla każdego ze współczynników C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Należy zauważyć, że dla wyższych współczynników C: O przedział ufności wynosi znacznie poniżej 0. Oznacza to, że domniemane założenia modelu liniowego są błędne. Można jednak stwierdzić, że modele liniowe dla wyższej zawartości C: O już się pokrywają.
Cofając się i dopasowując tylko stałą wartość (tj. Brak zależności T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Uzupełnieniem jest modelowanie braku zależności od C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Mimo to przedział ufności obejmowałby linie poziome, a nawet lekko wznoszące się.
Możesz spróbować i spróbować np. Zezwolić na różne przesunięcia dla trzech stosunków C: O, ale stosując równe nachylenia.
Jednak już kilka innych pomiarów drastycznie poprawiłoby sytuację - zwróć uwagę, o ile węższe są przedziały ufności dla C: O = 1: 1, gdzie masz 4 pomiary zamiast tylko 3.
Wniosek: jeśli porównasz moje punkty, do których wniosków jestem sceptyczny, zbytnio czytają w kilku dostępnych punktach!