Niedawno przeprowadziłem analizę wpływu reputacji na opinie (patrz blog ), a następnie miałem kilka pytań na temat być może bardziej pouczającej (lub bardziej odpowiedniej) analizy i grafiki.
Tak więc kilka pytań (i nie krępuj się odpowiadać każdemu w szczególności i ignoruj pozostałe):
W obecnym wcieleniu nie miałem na myśli wyśrodkowania numeru postu. Myślę, że to robi fałszywe wrażenie negatywnej korelacji na wykresie rozrzutu, ponieważ jest więcej postów w dolnej części liczby postów (widać, że nie dzieje się tak w panelu Jona Skeeta, tylko w śmiertelnych użytkownikach płyta). Czy niewłaściwe jest nie wyśrodkowywanie numeru postu (ponieważ mam na myśli wyśrodkowanie wyniku na średni wynik użytkownika)?
Z wykresów powinno być oczywiste, że wynik jest mocno wypaczony w prawo (a średnie centrowanie tego nie zmieniło). Podczas dopasowywania linii regresji dopasowuję zarówno modele liniowe, jak i model wykorzystujący błędy Hubera-White'a (przez
rlm
w pakiecie MASS R ) i nie miało to żadnego znaczenia w szacunkach nachylenia. Czy powinienem rozważyć przemianę danych zamiast solidnej regresji? Należy pamiętać, że każda transformacja musiałaby uwzględniać możliwość 0 i negatywnych wyników. A może powinienem użyć innego typu modelu do liczenia danych zamiast OLS?Uważam, że dwie ostatnie grafiki można ogólnie ulepszyć (i jest to również związane z ulepszonymi strategiami modelowania). W mojej (zmęczonej) opinii podejrzewałbym, że jeśli efekty reputacji są prawdziwe, zostałyby one zrealizowane dość wcześnie w historii plakatów (przypuszczam, że jeśli to prawda, można je ponownie rozważyć „udzieliłeś doskonałych odpowiedzi, więc teraz będę głosować posty „zamiast efektów„ reputacja według całkowitej liczby punktów ”). Jak mogę stworzyć grafikę, aby zademonstrować, czy to prawda, biorąc pod uwagę nadmierne kreślenie? Pomyślałem, że może dobrym sposobem wykazania tego byłoby dopasowanie modelu formy;
gdzie jest (taki sam, jak w obecnych wykresach rozrzutu), jest , a są zmiennymi obojętnymi reprezentującymi pewien dowolny zakres numerów postów (na przykład jest równy, jeśli numer jest , jest równy, jeśli numer postu jest itp.). i są odpowiednio terminem wielkiego przechwytywania i błędu. Następnie zbadałbym szacunkowe nachylenie aby ustalić, czy efekty reputacji pojawiły się wcześnie w historii plakatów (lub graficznie je pokazały). Czy jest to rozsądne (i właściwe) podejście?X 1 Z 1 ⋯ Z k Z 1 Z 2 β 0 ϵ γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
Wydaje się popularne, aby dopasować jakiś rodzaj nieparametrycznej linii wygładzania do takich wykresów rozrzutu (takich jak less lub splajny), ale moje eksperymenty z splajnami nie ujawniły niczego oświecającego (jakiekolwiek dowody pozytywnych efektów na wczesnym etapie historii plakatu były niewielkie i temperamentalne do liczby włączonych splajnów). Skoro mam hipotezę, że efekty pojawiają się wcześnie, czy moje podejście do modelowania jest bardziej uzasadnione niż splajny?
Zwróć też uwagę, że chociaż pogłębiłem wszystkie te dane, wciąż istnieje wiele innych społeczności do zbadania (a niektóre takie jak administrator i błąd serwera mają podobnie duże próbki do wyciągnięcia), więc rozsądne jest sugerowanie w przyszłości analiza, w której wykorzystuję próbkę powstrzymującą do zbadania dowolnego związku.