Lokalizowanie swobodnie dostępnych próbek danych


98

Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na żywo.

To, czego szukam, to swobodnie dostępne (tj. Niepoufne, niezastrzeżone) źródło danych. Korzystnie taki, który zawiera rozkłady bimodalne lub multimodalne lub oczywiście składa się z wielu podzbiorów, których nie można łatwo rozdzielić za pomocą tradycyjnych środków. Gdzie znajdę takie informacje?



4
Może ci się spodobać getthedata.org strona z pytaniami i odpowiedziami poświęcona znajdowaniu zestawów danych
Jeromy Anglim

Odpowiedzi:



46


17

Bank Światowy oferuje całkiem sporo interesujących danych, a ostatnio bardzo aktywnie opracowujedla niegoładne API .

Również projekt commugrate ma dostępną ciekawą listę.

W przypadku danych związanych ze zdrowiem w USA kieruj do hurtowni wskaźników zdrowotnych .

Blog Daniela Lemire'a wskazuje na kilka interesujących przykładów (głównie dostosowanych do badań DB), w tym kanadyjski spis powszechny 1880 i raporty chmur synoptycznych .

A na dzień dzisiejszy (03.04.2012) zapisy ze spisu powszechnego z 1940 r. Są również dostępne do pobrania.


2
Bank Światowy idzie o krok dalej z otwartymi danymi i mapami dla Staty i R.
ks.

13

Gapminder ma liczbę (430 na ostatni rzut oka) zestawów danych, które mogą, ale nie muszą być przydatne.



10

Dobrym miejscem do obejrzenia jest biblioteka danych i historii Carnegie Mellon University lub DASL , która zawiera pliki danych, które „ilustrują użycie podstawowych metod statystycznych ... Dobry przykład może uczynić lekcję na temat konkretnej metody statystycznej żywą i odpowiednią. DASL jest zaprojektowany, aby pomóc nauczycielom w zlokalizowaniu i identyfikacji plików danych do nauczania. Mamy nadzieję, że DASL będzie również służyć jako archiwum dla zbiorów danych z literatury statystycznej. ”


9

Uruchom R i wpisz data(). Spowoduje to wyświetlenie wszystkich zestawów danych na ścieżce wyszukiwania. Wiele dodatkowych zestawów danych jest dostępnych w pakietach dodatkowych. Na przykład w AERpakiecie znajduje się kilka interesujących zestawów danych z nauk społecznych .




5

Sieć Stack Exchange ma teraz nową witrynę, Open Data (w wersji beta od 5 marca 2015 r.), Poświęconą danych. Opisuje się jako:

Open Data Stack Exchange to witryna z pytaniami i odpowiedziami dla programistów i badaczy zainteresowanych otwartymi danymi. Jest zbudowany i obsługiwany przez Ciebie jako część sieci Stack Exchange stron z pytaniami i odpowiedziami. Z Twoją pomocą współpracujemy nad stworzeniem biblioteki szczegółowych odpowiedzi na każde pytanie dotyczące otwartych danych.

„Otwarte dane” odnoszą się do zbiorów danych, które są „swobodnie dostępne dla każdego do używania i ponownego publikowania według własnego uznania, bez ograniczeń praw autorskich, patentów lub innych mechanizmów kontroli” ( Wikipedia ). Jednak witryna wydaje się być podatna na żądania zamkniętych zestawów danych .








2

Szukając odpowiedniego zestawu danych do moich potrzeb, natknąłem się na dwie witryny związane z tą dyskusją.

Datacite.org, który określa się jako ...

Jesteśmy organizacją międzynarodową, której celem jest:

  • zapewnić łatwiejszy dostęp do danych badawczych
  • zwiększenie akceptacji danych badawczych jako uzasadnionego wkładu w wyniki badań naukowych oraz
  • wspierać archiwizację danych, aby umożliwić weryfikację wyników i ponowne przeznaczenie ich do przyszłych badań.

DataBib.org, który określa się jako ...

Databib to narzędzie pomagające w identyfikowaniu i lokalizowaniu internetowych repozytoriów danych badawczych. Użytkownicy i bibliografowie tworzą i wyszukują rekordy opisujące repozytoria danych, które użytkownicy mogą przeszukiwać.

Pomyślałem, że warto dodać go do listy tutaj dla innych.

Teraz znajdź w linkach coś, co odpowiada moim potrzebom!


2

Bardzo polecam sprawdzenie quandl.com . To marzenie programistów danych. Zapewnia jeden bardzo łatwy interfejs API umożliwiający dostęp do ponad 10 milionów różnych danych. Poszukujesz danych bimodalnych lub wielowymiarowych, więc sugerowałbym sprawdzenie różnych zestawów danych dotyczących populacji, np. Ten światowy wykres populacji zawiera podskładnikowe kraje i terytoria wchodzące w skład całości.


1
Niektóre dane quandl są bezpłatne, inne „Premium”, tj. Kosztuje $$. Również moje marzenie dotyczące API obejmuje nrows szereg czasowy, ncols i fabuły online (chcę kucyka).
denis


1

Wykorzystanie w czasie

Bardzo duży arkusz kalkulacyjny Excel dostępny do pobrania, zawierający punkty danych dla wszystkich działań online, z danymi demograficznymi użytkowników, w miarę upływu czasu. Przed pobraniem lub użyciem tego arkusza kalkulacyjnego przeczytaj Arkusz wskazówek (poniżej).

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx





Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.