Próbuję znaleźć formułę, metodę lub model do zastosowania w celu analizy prawdopodobieństwa, że określone zdarzenie wpłynęło na niektóre dane podłużne. Z trudem zastanawiam się, czego szukać w Google.
Oto przykładowy scenariusz:
Wyobraź sobie, że jesteś właścicielem firmy, która codziennie odwiedza średnio 100 klientów. Pewnego dnia decydujesz, że chcesz zwiększyć liczbę klientów przychodzących do twojego sklepu każdego dnia, więc robisz szalony wyczyn poza sklepem, aby zwrócić na siebie uwagę. W ciągu następnego tygodnia dziennie widzisz średnio 125 klientów.
W ciągu następnych kilku miesięcy ponownie zdecydujesz, że chcesz uzyskać więcej działalności, a być może utrzymasz ją trochę dłużej, więc wypróbuj inne losowe rzeczy, aby zdobyć więcej klientów w sklepie. Niestety nie jesteś najlepszym marketerem, a niektóre z twoich taktyk mają niewielki lub żaden efekt, a inne nawet negatywne.
Jakiej metodyki mógłbym użyć do określenia prawdopodobieństwa, że jakieś pojedyncze wydarzenie pozytywnie lub negatywnie wpłynie na liczbę klientów? W pełni zdaję sobie sprawę, że korelacja niekoniecznie oznacza związek przyczynowy, ale jakich metod mogę użyć, aby określić prawdopodobny wzrost lub spadek codziennego spaceru Twojej firmy po konkretnym wydarzeniu?
Nie jestem zainteresowany analizą, czy istnieje korelacja między twoimi próbami zwiększenia liczby wchodzących klientów, ale raczej, czy jedno zdarzenie, niezależnie od wszystkich innych, miało wpływ.
Zdaję sobie sprawę, że ten przykład jest raczej przemyślany i uproszczony, dlatego dam ci również krótki opis rzeczywistych danych, których używam:
Próbuję określić wpływ, jaki dana agencja marketingowa ma na witrynę swojego klienta, gdy publikują nowe treści, przeprowadzają kampanie w mediach społecznościowych itp. Dla każdej konkretnej agencji może mieć od 1 do 500 klientów. Każdy klient ma witryny o wielkości od 5 stron do ponad 1 miliona. W ciągu ostatnich 5 lat każda agencja odnotowała całą swoją pracę dla każdego klienta, w tym rodzaj wykonanej pracy, liczbę stron internetowych, na które wywierał wpływ, liczbę spędzonych godzin itp.
Korzystając z powyższych danych, które zgromadziłem w hurtowni danych (umieszczonej w wiązce schematów gwiazda / płatek śniegu), muszę ustalić, jak prawdopodobne jest to, że jakakolwiek część pracy (dowolne zdarzenie w czasie) miała wpływ na ruch uderzający w dowolne / wszystkie strony, na który wpływ ma określony utwór. Stworzyłem modele dla 40 różnych rodzajów treści, które można znaleźć na stronie internetowej, które opisują typowy wzorzec ruchu na stronie o tym typie treści, który może występować od daty uruchomienia do chwili obecnej. Znormalizowany w stosunku do odpowiedniego modelu, muszę określić najwyższą i najniższą liczbę zwiększonych lub zmniejszonych odwiedzających określoną stronę otrzymaną w wyniku określonego dzieła.
Chociaż mam doświadczenie w podstawowej analizie danych (regresja liniowa i wielokrotna, korelacja itp.), Brakuje mi podejścia do rozwiązania tego problemu. Podczas gdy w przeszłości zazwyczaj analizowałem dane z wieloma pomiarami dla danej osi (na przykład temperatura vs pragnienie vs zwierzę i określałem wpływ na pragnienie, jaki wzrost temperatury ma na zwierzęta), czuję, że powyżej próbuję przeanalizować wpływ pojedynczego zdarzenia w pewnym momencie dla nieliniowego, ale przewidywalnego (lub przynajmniej modelowego), podłużnego zestawu danych. Jestem zakłopotany :(
Każda pomoc, wskazówki, wskazówki, rekomendacje lub wskazówki byłyby niezwykle pomocne i byłbym wiecznie wdzięczny!