Potrzebujesz zestawu danych porównawczych trajektorii GPS?


13

Poszukuję wzorcowego zestawu danych GPS, dostępnego do celów badawczych za darmo. Znalazłem zestaw danych GeoLife GPS Trajektories z Microsoft Research, ale uważam, że jest trochę niekompletny.

Potrzebuję danych aktywności GPS osoby, takich jak krotki (szerokość, długość, data), śledzone przez co najmniej kilka miesięcy, najlepiej w sposób ciągły. Chciałbym również, aby nagrania były nieliczne; najwyżej 1 minuta między każdym rekordem.

Byłbym bardzo wdzięczny, jeśli możesz wskazać mi tak niezawodny zestaw danych.


2
Czy ten zestaw danych musi dotyczyć człowieka? (Sposób, w jaki pisałeś wszystko do tej pory, sugeruje tak, ale nie sądzę, by zostało to wyraźnie stwierdzone.)
Dan S.,

Odpowiedzi:


17

Myślę, że twoją najlepszą szansą będzie wyśledzenie siebie. Jeśli pomysł Ci to przeszkadza, to dlatego nigdzie nie znajdziesz takich danych.



4

Nie wstrzymałbym oddechu. Dane z taką precyzją byłyby ogromnym przedsięwzięciem i miałyby ogromne konsekwencje dla prywatności (nawet jeśli tylko na 30 dni dla jednej osoby, która obejmowałaby 43 200 punktów danych (jeśli byłyby rejestrowane co minutę) i niewątpliwie identyfikowałyby tam lokalizację domową).

Jeśli jesteś zainteresowany merytorycznymi pytaniami, które zawierają takie dane, ta rada nie pomoże. Ale jeśli jesteś zainteresowany tylko pewnego rodzaju strategią analityczną do obsługi tak ogromnych danych, powinieneś być w stanie po prostu symulować dane na taką skalę, aby spełnić twoje cele. Aby zasymulować dane, proponuję przyjrzeć się programowi statystycznemu R, aw szczególności spatstat i pakietowi podróży (a także wszystkim modułom przestrzennym w R).

Byłbym sceptyczny, nawet dane dotyczące śledzenia zwierząt spełniłyby twoje wymagania dotyczące punktów danych w tak krótkich odstępach czasu. Mógłbym wymienić kilka artykułów, które przeczytałem, które wykorzystują dane z telefonu komórkowego do oszacowania wzorców ludzkiej aktywności, ale żaden z nich nie zbliżyłby się do tak długiego czasu lub tak często mierzyłby aktywność poszczególnych osób.


4

Jednym z nich jest przygotowanie umowy i zatrudnienie wielu osób. Dostarcz im jednostki GPS skonfigurowane do odczytu potrzebnych danych, wystarczającej ilości baterii, aby przetrwać umowę, oraz instrukcji (podłącz go za pomocą tego kabla, aby przesyłać co noc, napisz do mnie ten plik itp.)

Na pewno musisz napisać w umowie, w jaki sposób ograniczysz dystrybucję danych i anonimizujesz je, aby je chronić (być może zapewniając mniej więcej pół milowy promień wykluczenia wokół punktów, które osoba określa jako prywatne), a może nawet rozważ zakup ubezpieczenia od strat. Gdyby ślady działalności ludzi zostały upublicznione, byłyby wypełnione takimi informacjami, jak: „Codziennie rano wychodzę do pracy o 7:00 i wracam do domu każdej nocy o 19:00”, a fabuła wyglądałaby jak gigantyczna gwiazdka pośrodku w ich domu mówiąc: „okradnij to miejsce między 8:00 a 18:00”. Możesz zobaczyć, dlaczego musisz martwić się o prywatność i bezpieczeństwo.

Jeśli się nad tym zastanowisz, poprosisz o bardzo drogie dane. I bez statystycznie wystarczająco dużego zestawu będzie miał wątpliwą wartość. Pomyśl, jak różne byłyby ślady między pracownikiem budowlanym (nowy, powtarzalny dojazd po każdym ukończonym budynku), przewoźnikiem pocztowym (bardzo powtarzalna i bardzo serpentynowa trasa), pracownikiem biurowym (w większości powtarzalna bezpośrednia trasa), a lawetą kierowca (ciągle nowe trasy). Status społeczno-ekonomiczny może wpływać na ślady: niższe dochody mogą częściej podążać liniami transportu publicznego i mniej podróżować. Rodzice dzieci w wieku szkolnym mogą mieć średnio wyższe mile po dojazdy do pracy. Nie wspominając o facecie, który prowadzi samochody Google Street View.

Żadne z tych śladów prawdopodobnie nie przecinają żadnego z pozostałych w żaden znaczący sposób.

Liczba unikalnych stylów prawdopodobnie będzie skończona, ale tak wysoka, że ​​uzyskanie znacznego budżetu będzie wymagać. I to byłoby tylko w jednym mieście.

Być może będziesz w stanie uzyskać mniejszy (tańszy) zestaw danych, jeśli lepiej zdefiniujesz swoje cele. Jeśli próbujesz skwantyfikować różne rodzaje wzorców, być może próbujesz szerokiej gamy ludzi w różnych miastach. Jeśli próbujesz dowiedzieć się, kto skorzystałby na masowym transporcie lub gdzie poprowadzić korytarze kolejki podmiejskiej, prawdopodobnie lepiej jest liczyć samochody na różnych drogach w okolicy, w której zamierzasz obsługiwać, i przeprowadzać ankiety.


2

Szukam również dokładnego typu zestawu danych, którego szukasz. Niestety, jak dotąd nie znalazłem. Pomimo danych GeoLife, innym źródłem, które znalazłem, jest CRAWDAD . Na stronie znajdują się dzienniki GPS z taksówek w San Francisco, a także piesi z Nowego Jorku. Niestety, dla pieszych z Nowego Jorku zapewniają jedynie współrzędne względne, a nie lat / lon.


2

Istnieje wiele tematów badawczych, w których dane niezbędne do udzielenia odpowiedzi na pytanie są niedostępne z przyczyn moralnych, a eksperymenty przekraczające te granice mogą prowadzić do przyszłych ograniczeń, tak jak miało to miejsce w przypadku eksperymentu Milgram . Niedawno AOL musiał pobrać zbiór zapytań z powodu obaw o prywatność, a jedyny wiarygodny zestaw danych, jaki mamy na temat nawyków e-mail, pochodzi z procesu Enron .

Tak więc, chociaż uzyskanie takiego zestawu danych trajektorii jest całkowicie technicznie możliwe, nigdy nie będzie praktyczne ze względu na wpływ na prywatność. Jak wspomniano w innych odpowiedziach, względne zestawy danych, agregacja danych nad poszczególnymi osobami lub symulacja mogą być lepszymi metodami odpowiedzi na twoje pytanie, unikając przy tym kwestii prywatności.



2

Oferty otwartego projektu PFLOW :

otwarty zestaw danych dla masowego przemieszczania się typowych ludzi na obszarach miejskich

Obszar metropolitalny Tokio jest dostępny, a obszar metropolitalny Chukyo wydaje się być w przygotowaniu.

Szczegóły można znaleźć w ostatniej publikacji:

Takehiro Kashiyama, Yanbo Pang, Yoshihide Sekimoto, Open PFLOW: Stworzenie i ocena otwartego zestawu danych dla masowego przemieszczania się typowych ludzi na obszarach miejskich, Transport Research Part C: Emerging Technologies (2017) Tom 85, strony 249–267.


Zbiór danych trajektorii T-Drive to najnowsze odkrycie. To zapewnia:

tygodniowe trajektorie 10 357 taksówek. Całkowita liczba punktów w tym zestawie danych wynosi około 15 milionów, a całkowita odległość trajektorii sięga 9 milionów kilometrów.


Chociaż nie dotyczy ruchów ludzi, firma Liquid Robotics udostępnia interesujący zestaw danych z wyzwania PacX . Dane o lokalizacji i odczytach czujników środowiskowych czterech robotów szybujących przez Ocean Spokojny są dostępne do pobrania . Więcej informacji o (naprawdę fajnym) projekcie na blogu , za pośrednictwem WIRED i tej rozmowy .


Inną możliwością rozwiązania problemów związanych z prywatnością byłoby wykorzystanie danych śledzenia zwierząt. Myślę, że ochrona danych będzie tutaj mniejszym problemem. Zaletą może być nadal testowanie oprogramowania / metod przy użyciu rzeczywistych danych o ruchu. Wadą może być to, że jeśli Twoja aplikacja potrzebuje ruchów „specyficznych dla człowieka” - mogą one nie pasować do Twojego celu.

Zajrzyj na strony Movebank lub DRYAD, aby sprawdzić, czy niektóre z ich danych mogą pasować do Twojego projektu.


Jeśli chodzi o dane iPhone'a , wspomniane przez Matthew , możesz rzucić okiem na projekty crowdfundingowe i openpaths . Być może istnieje sposób na uzyskanie przez nich somedata? Aktualizacja: oba linki wydają się już martwe.


Jeszcze inną opcją jest część przestrzenna danych taksówek Chrisa Whonga z Nowego Jorku . Zapewniają tylko lokalizacje odbioru i zwrotu, jednak pojemność (11 GB!) I informacje kontekstowe (taryfa, pasażerowie itp.) Czynią je naprawdę atrakcyjnymi (alternatywne pobieranie , więcej informacji na temat problemów związanych z prywatnością zgłaszanych przez dane).


Post Urški Demšar w jej najnowszym artykule na temat „Analizy mobilności człowieka na podstawie danych o dobrowolnym ruchu i informacji kontekstowych” obiecuje:

Niedługo dostępny będzie również bezpłatny zestaw danych dotyczących dobrowolnych trajektorii GPS powiązanych z tym artykułem. Bądźcie czujni.

( więcej informacji )

Aktualizacja: w gazecie wspomniano, że dane będą dostępne w CRAWDAD wspomnianym przez @ejel, ale nie znalazłem ich tam.


Inną opcją może być samodzielne utworzenie syntetycznego zestawu danych . Jeśli potrzebujesz inspiracji, zapoznaj się z najnowszym artykułem van Dijk J (2018) Identyfikacja punktów aktywności z danych GPS za pomocą wielu ruchomych okien Komputery, środowisko i systemy miejskie ( link ). Więcej szczegółów znajduje się w dodatku do artykułu, a kod i przykładowy zestaw danych są dostępne na github .


1

Tahina Expedition (blog Google Earth) http://www.tahinaexpedition.com/map pływa przez większość zeszłego roku.

KML może być przetwarzany http://maps.google.com/maps/ms?source=embed&hl=pl&geocode=&ie=UTF8&t=k&msa=0&output=nl&msid=103005318482134016767.0004670ab348ba9fa7b1f [był teraz ścieżką GPS konwertowaną na kml]


@Mapperez - Dziękuję Mapperez, ale to, czego potrzebuję, jest nieco inne. Chciałbym rejestrować punkty GPS osoby na lądzie z dnia na dzień, z minuty na minutę. Osoba z codzienną rutyną (nieco rutyną) - jak wstanie, idzie do pracy, spędza tam godziny, idzie na zakupy, wraca do domu, powtarzaj.
Murat

1

Ludzie przekazują te dane do Google bezpłatnie przez całą dobę. To się nazywa Latitude. Może podzielą się nim tak hojnie, jak udostępnili to użytkownicy.


1
Mam nadzieję, że nie. Jestem pewien, że nie będą mogli udostępniać żadnych danych na poziomie wymaganym przez aplikację @ Murat.
podmrok
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.