Chcę zbadać zachowanie linii lotniczych w zakresie ustalania cen - w szczególności sposób, w jaki linie lotnicze reagują na ceny konkurentów.
Ponieważ powiedziałbym, że moja wiedza na temat bardziej złożonych analiz jest dość ograniczona, zrobiłem głównie wszystkie podstawowe metody, aby zebrać ogólny widok danych. Obejmuje to proste wykresy, które już pomagają zidentyfikować podobne wzorce. Używam również SAS Enterprise 9.4.
Jednak szukam podejścia bardziej opartego na liczbach.
Zbiór danych
(Własny) zestaw danych, z którego korzystam, zawiera około ~ 54 000 taryf. Wszystkie taryfy były pobierane w 60-dniowym przedziale czasowym, codziennie (co noc o 00:00).
W związku z tym każda taryfa w tym przedziale czasowym występuje razy, w zależności od dostępności taryfy, a także daty wylotu lotu, kiedy upłynie termin jej odbioru. (Nie możesz odebrać taryfy za lot, gdy data wylotu tego lotu jest w przeszłości)
Niesformatowany, który wygląda w zasadzie tak: (fałszywe dane)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
„DaysBeforeDeparture” oblicza się za pomocą gdzie
- I i odstęp (dni przed odlotem)
- s i data taryfy (odlot)
- c i data, z której opłata została pobrana
Oto przykład zgrupowanych danych ustawionych przez I (DaysBeforeDep.) (Fałszywe dane!):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Co do tej pory wymyśliłem
Patrząc na wykresy liniowe, mogę już oszacować, że kilka linii będzie miało wysoki współczynnik korelacji. Dlatego najpierw spróbowałem użyć analizy korelacji na zgrupowanych danych. Ale czy to właściwy sposób? Zasadniczo próbuję teraz dokonać korelacji na podstawie średnich, a nie poszczególnych cen? Czy jest inny sposób?
Nie jestem pewien, który model regresji pasuje tutaj, ponieważ ceny nie zmieniają się w żadnej formie liniowej i wydają się nieliniowe. Czy musiałbym dopasować model do każdej zmiany cen linii lotniczej
PS: To jest długa ściana tekstowa. Jeśli muszę coś wyjaśnić, daj mi znać. Jestem nowy w tym sub.
Ktoś może podpowiedzieć? :-)