Publicznie dostępne zestawy danych


167

Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w tej dziedzinie wykonuje nieco powtarzalną pracę. Na przykład analiza tweetów, postów na Facebooku, artykułów w Wikipedii itp. Jest częścią wielu problemów z dużymi danymi.

Niektóre z tych zestawów danych są dostępne przy użyciu publicznych interfejsów API udostępnianych przez witrynę dostawcy, ale zwykle brakuje niektórych cennych informacji lub wskaźników w tych interfejsach API i każdy musi ponownie wykonywać te same analizy. Na przykład, chociaż użytkownicy korzystający z klastrów mogą zależeć od różnych przypadków użycia i wybranych funkcji, to jednak bazowe grupowanie użytkowników z Twittera / Facebooka może być przydatne w wielu aplikacjach Big Data, których interfejs API nie udostępnia ani nie udostępnia publicznie w niezależnych zestawach danych .

Czy istnieje jakaś strona z indeksem lub publicznie dostępnym zestawem danych zawierającym cenne zestawy danych, które można ponownie wykorzystać w rozwiązywaniu innych problemów z dużymi danymi? Mam na myśli coś takiego jak GitHub (lub grupa witryn / publicznych zestawów danych lub przynajmniej obszerna lista) dla nauki danych. Jeśli nie, jakie są powody braku takiej platformy dla nauki danych? Wartość handlowa danych, musisz często aktualizować zestawy danych ...? Czy nie możemy opracować modelu open source do udostępniania zbiorów danych dla naukowców zajmujących się danymi?


18
To pytanie może być bardziej odpowiednie w dedykowanym opendata.SE . Powiedział, że Trzymam kciuki za DAT , który aspiruje do roli „Git danych”.
ojdo

2
@ojdo Dzięki, nigdy wcześniej nie słyszałem o opendata.SE, znalazłem tam również to interesujące (i bardzo podobne) pytanie.
Amir Ali Akbari


Nie znalazłem żadnych dobrych, bezpłatnych kompleksowych zestawów danych dla typowych aplikacji Business Intelligence. Zestaw danych demonstracyjnych Microsoft Contoso BI dla branży detalicznej z oficjalnego pobierania Centrum pobierania Microsoft współpracuje z niektórymi produktami Microsoft (patrz AndyGett w SharePoint i innym oprogramowaniu biznesowym ), ale nie widzę żadnych zwykłych zrzutów SQL ani CSV ani żadnych informacji o licencji .
nealmcb

1
Czy dołączyłeś do Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Odpowiedzi:


87

W rzeczywistości istnieje bardzo rozsądna lista publicznie dostępnych zestawów danych, obsługiwanych przez różne przedsiębiorstwa / źródła.

Niektóre z nich są poniżej:

Teraz dwie kwestie dotyczące twojego pytania. Pierwszy dotyczy zasad udostępniania baz danych. Z własnego doświadczenia wynika, że ​​istnieją pewne bazy danych, których nie można udostępnić publicznie, zarówno w celu ograniczenia prywatności (jak w przypadku niektórych informacji z sieci społecznościowych), jak i dotyczących informacji rządowych (takich jak bazy danych systemów opieki zdrowotnej).

Kolejna kwestia dotyczy użycia / zastosowania zestawu danych. Chociaż niektóre bazy danych mogą być przetwarzane ponownie w celu dopasowania do potrzeb aplikacji, byłoby dobrze, gdybyś miał jakąś fajną organizację zbiorów danych według celu. Taksonomia powinna obejmować analizę społeczną wykres, Zbiór, górnictwo, klasyfikację, oraz wiele innych obszarów badawczych nie mogą być.


64

37

Istnieje wiele otwartych zestawów danych, jednym z nich często jest przeoczony data.gov . Jak wspomniano wcześniej, Freebase jest świetny, podobnie jak wszystkie przykłady opublikowane przez @Rubens




25

W szczególności dla danych szeregów czasowych Quandl jest doskonałym zasobem - łatwo przeglądalnym katalogiem (głównie) czystych szeregów czasowych.

Jedną z ich najfajniejszych funkcji są ceny akcji z otwartymi danymi - tj. Dane finansowe, które można edytować w stylu wiki i nie są obciążone licencją.


20

Enigma to repozytorium dostępnych publicznie zestawów danych. Bezpłatny plan oferuje publiczne wyszukiwanie danych, z 10 000 wywołań API miesięcznie. Nie wszystkie publiczne bazy danych są wymienione, ale lista ta wystarcza na typowe przypadki.

Użyłem go do badań akademickich i zaoszczędziłem dużo czasu.


Innym interesującym źródłem danych jest projekt @unitedstates , zawierający dane i narzędzia do ich gromadzenia, dotyczące Stanów Zjednoczonych (członkowie Kongresu, kształty geograficzne…).


18

Chciałbym wskazać na spis powszechny danych . Jest to inicjatywa Open Knowledge Foundation oparta na opiniach zwolenników otwartych danych i ekspertów z całego świata.

Wartość spisu otwartych danych jest otwarta, kierowana przez społeczność i systematyczna w gromadzeniu i aktualizacji bazy danych otwartych zbiorów danych na całym świecie w poszczególnych krajach, aw niektórych przypadkach, np. W Stanach Zjednoczonych, na poziomie miast .

Ponadto stanowi okazję do porównania różnych krajów i miast w wybranych obszarach zainteresowania.


18

Istnieje również inny zasób udostępniony przez The Guardian, British Daily na ich stronie internetowej. Wszystkie zestawy danych opublikowane przez Guardian Datablog są hostowane. Zestawy danych dotyczące kont Football Premier League Clubs, dane dotyczące inflacji i PKB w Wielkiej Brytanii, dane dotyczące nagród Grammy itp. Zestawy danych są dostępne na stronie

Więcej zasobów. Niektóre zestawy danych są w formacie R lub istnieją komendy R do bezpośredniego importowania danych do R.


17

Niestandardowa wyszukiwarka Google

Możesz użyć niestandardowej wyszukiwarki Google dla zestawów danych:

Wyszukiwarka niestandardowa Google: zestawy danych

Zawiera 230 źródeł i meta-źródeł zestawów danych, w tym wszystkie wymienione w tym pytaniu. Prosimy o wykluczenie .gov i innych stron z wyników wyszukiwania poprzez dodanie „-.gov” lub „-site.com” do linii wyszukiwania. Działają inni operatorzy wyszukiwania Google.

Nie wahaj się ze mną skontaktować, jeśli masz pomysły, które witryny dodać.

IOGDS

Następująca usługa kategoryzuje ponad 1 000 000 publicznych zbiorów danych:

IOGDS: międzynarodowy otwarty zbiór danych rządowych


Jakie są parametry podanego niestandardowego linku wyszukiwania? Czy wyszukuje na liście stron internetowych, słów kluczowych itp.?
Amir Ali Akbari,

@AmirAliAkbari Przeszukuje źródła takie jak Data.gov, Quandl i inne duże hurtownie danych.
Anton Tarasenko,

16

Późna odpowiedź, ale tutaj jest eklektyczna lista ponad 100 interesujących zbiorów danych

Wpis na blogu jest przyjemny i łatwy do przeczytania (nie mam powiązania). Warto zeskanować i zeskrobać kilka z góry:

  • Ostatnie słowa każdego więźnia z Teksasu straconego od 1984 r

  • 10 000 zdjęć kotów z adnotacjami

  • 2,2 miliona meczów szachowych





14

Jestem nowy na tym forum. Późno dzwonię w tej sprawie. Prowadzę (jestem współzałożycielem) katalog publicznie dostępnych portali danych. Istnieje ponad 1000 obecnie wymienionych i obejmujących portale na poziomie międzynarodowym, federalnym, stanowym, miejskim i akademickim na całym świecie.

http://www.opengeocode.org/opendata/


14

Dziwię się, że o tym nie wspomniałem, ponieważ wydaje się to dość oczywiste: http://www.kaggle.com konsekwentnie ma nowe i bardzo interesujące zbiory danych. Informacje są uważane za zasób, więc często firmy nie chcą ujawniać tych danych (plus obawy dotyczące prywatności). Kaggle udostępnia dane i ma nadzieję, że w zamian rozwiążesz z nimi problemy biznesowe.


14

1
Czy możesz podać nam informacje o obu zestawach danych / linkach? To rzeczywiście zmniejszy ciężar osób poszukujących określonych typów zbiorów danych. Przejrzyj inne posty, aby zobaczyć, jakiego rodzaju informacji brakuje w twoich referencjach.
Rubens

11

Jak wspomniałeś, interfejs API jest trudny, a nie dane. Wydaje się, że Quandl rozwiązuje ten problem, udostępniając ponad 10 milionów publicznie dostępnych zestawów danych w ramach jednego łatwego interfejsu API RESTful. Jeśli programowanie nie jest Twoją mocną stroną, istnieje bezpłatne narzędzie, które bardzo ułatwia ładowanie danych do Excela. Dodatkowo, jeśli zrobić cieszyć programowania, istnieje kilka natywne biblioteki w R, Python, Java i więcej .





9

Innym źródłem danych, którego nie widziałem na liście, jest Projekt GDELT . Ze strony:

Projekt GDELT monitoruje światowe wiadomości telewizyjne, drukowane i internetowe z niemal każdego zakątka każdego kraju w ponad 100 językach i identyfikuje ludzi, lokalizacje, organizacje, liczby, tematy, źródła i wydarzenia napędzające nasze globalne społeczeństwo co sekundę każdego dnia, tworząc bezpłatną otwartą platformę obliczeniową na całym świecie.



6

Stworzyłem do tego repozytorium github. Zestawy danych nie są duże, ale są minimalnymi przykładami służącymi do ćwiczenia i eksploracji technik modelowania predykcyjnego, które można następnie rozszerzyć na duże zestawy danych.

Biblia dotycząca uczenia maszynowego (MLPB)

Fajną / unikalną cechą tego repozytorium jest to, że każdy problem jest oznaczony tagami takimi jak [multi-class], [niezrównoważone dane], [regresja] itp., Co ułatwia znajdowanie określonych typów problemów / zestawów danych.



6

Oprócz wszystkich tych zestawów danych, jeśli jesteś zainteresowany danymi związanymi z Indiami. Oficjalna strona rządu indyjskiego to

Zapewnia zestawy danych z różnych departamentów indyjskiego rządu, które mogą być dobrze wykorzystane do analizy dużych zbiorów danych i uczenia maszynowego.



4

Po prostu ładujemy pakiet MASS w R, uzyskujemy dostęp do wielu ramek danych lub zestawów danych.

pakiety install.packages („MASS”) wymagają („MASS”)


3

3 zestawy danych z https://www.jc-bingo.com/about

  • visitor-interests.csv Zagregowane zainteresowania odwiedzających zestawione na podstawie 1-tygodniowych dzienników dostępu do sieci. Obejmuje adres IP użytkownika, ciąg znaków klienta użytkownika, kraj użytkownika, języki i tematy stron, do których uzyskano dostęp. 19 926 rekordów, 2,9 Mb.
  • user-agent.csv Agenty użytkownika rzeczywistego użytkownika uporządkowane według popularności. 4826 rekordów, 716 Kb.
  • bots.csv Adresy IP robotów i ciągi agenta użytkownika wyodrębnione z dzienników dostępu do sieci. 1293 zapisy, 122 Kb.

3

Oczywiście istnieje duży zestaw publicznych baz danych.

Jeden jeszcze nie wymieniony, pochodzi z FAO (Organizacja Narodów Zjednoczonych ds. Wyżywienia i Rolnictwa), dostępnej pod adresem:

http://www.fao.org/faostat/

Zawiera dane dotyczące produkcji żywności dla krajów na całym świecie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.