Publicznie dostępne zestawy danych

167

Jednym z powszechnych problemów w nauce o danych jest zbieranie danych z różnych źródeł w jakoś oczyszczonym (częściowo ustrukturyzowanym) formacie i łączenie wskaźników z różnych źródeł w celu przeprowadzenia analizy wyższego poziomu. Patrząc na wysiłki innych ludzi, szczególnie na inne pytania na tej stronie, wydaje się, że wiele osób w tej dziedzinie wykonuje nieco powtarzalną pracę. Na przykład analiza tweetów, postów na Facebooku, artykułów w Wikipedii itp. Jest częścią wielu problemów z dużymi danymi.

Niektóre z tych zestawów danych są dostępne przy użyciu publicznych interfejsów API udostępnianych przez witrynę dostawcy, ale zwykle brakuje niektórych cennych informacji lub wskaźników w tych interfejsach API i każdy musi ponownie wykonywać te same analizy. Na przykład, chociaż użytkownicy korzystający z klastrów mogą zależeć od różnych przypadków użycia i wybranych funkcji, to jednak bazowe grupowanie użytkowników z Twittera / Facebooka może być przydatne w wielu aplikacjach Big Data, których interfejs API nie udostępnia ani nie udostępnia publicznie w niezależnych zestawach danych .

Czy istnieje jakaś strona z indeksem lub publicznie dostępnym zestawem danych zawierającym cenne zestawy danych, które można ponownie wykorzystać w rozwiązywaniu innych problemów z dużymi danymi? Mam na myśli coś takiego jak GitHub (lub grupa witryn / publicznych zestawów danych lub przynajmniej obszerna lista) dla nauki danych. Jeśli nie, jakie są powody braku takiej platformy dla nauki danych? Wartość handlowa danych, musisz często aktualizować zestawy danych ...? Czy nie możemy opracować modelu open source do udostępniania zbiorów danych dla naukowców zajmujących się danymi?

open-source dataset

— Amir Ali Akbari
źródło

18

To pytanie może być bardziej odpowiednie w dedykowanym opendata.SE . Powiedział, że Trzymam kciuki za DAT , który aspiruje do roli „Git danych”.

— ojdo

2

@ojdo Dzięki, nigdy wcześniej nie słyszałem o opendata.SE, znalazłem tam również to interesujące (i bardzo podobne) pytanie.

— Amir Ali Akbari

2

Zobacz quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

Nie znalazłem żadnych dobrych, bezpłatnych kompleksowych zestawów danych dla typowych aplikacji Business Intelligence. Zestaw danych demonstracyjnych Microsoft Contoso BI dla branży detalicznej z oficjalnego pobierania Centrum pobierania Microsoft współpracuje z niektórymi produktami Microsoft (patrz AndyGett w SharePoint i innym oprogramowaniu biznesowym ), ale nie widzę żadnych zwykłych zrzutów SQL ani CSV ani żadnych informacji o licencji .

— nealmcb

1

Czy dołączyłeś do Open Data Stack Exchange? opendata.stackexchange.com

— sss4r

87

W rzeczywistości istnieje bardzo rozsądna lista publicznie dostępnych zestawów danych, obsługiwanych przez różne przedsiębiorstwa / źródła.

Niektóre z nich są poniżej:

Publiczne zbiory danych na Amazon WebServices ;
Repozytorium często używanych zestawów wydobywczych ;
Repozytorium uczenia maszynowego UCI ;
KDnuggets - duża lista wielu publicznych repozytoriów.

Teraz dwie kwestie dotyczące twojego pytania. Pierwszy dotyczy zasad udostępniania baz danych. Z własnego doświadczenia wynika, że istnieją pewne bazy danych, których nie można udostępnić publicznie, zarówno w celu ograniczenia prywatności (jak w przypadku niektórych informacji z sieci społecznościowych), jak i dotyczących informacji rządowych (takich jak bazy danych systemów opieki zdrowotnej).

Kolejna kwestia dotyczy użycia / zastosowania zestawu danych. Chociaż niektóre bazy danych mogą być przetwarzane ponownie w celu dopasowania do potrzeb aplikacji, byłoby dobrze, gdybyś miał jakąś fajną organizację zbiorów danych według celu. Taksonomia powinna obejmować analizę społeczną wykres, Zbiór, górnictwo, klasyfikację, oraz wiele innych obszarów badawczych nie mogą być.

— Rubens
źródło

64

Aktualizacja:

Kaggle.com , dom miłośników nowoczesnej nauki i uczenia maszynowego :), otworzył własne repozytorium zestawów danych .

Oprócz wymienionych źródeł.

Niektóre zestawy danych sieci społecznościowych:

Istnieje wiele źródeł wymienionych w Stats SE:

— IharS
źródło

37

Istnieje wiele otwartych zestawów danych, jednym z nich często jest przeoczony data.gov . Jak wspomniano wcześniej, Freebase jest świetny, podobnie jak wszystkie przykłady opublikowane przez @Rubens

— MCP_infiltrator
źródło

35

Freebase to darmowa baza danych oparta na społeczności, która obejmuje wiele interesujących tematów i zawiera około 2,5 miliarda faktów w formacie do odczytu maszynowego. Ma również dobry interfejs API do wykonywania zapytań o dane.

Oto kolejna skompilowana lista otwartych zestawów danych: http://www.datapure.co/open-data-sets

— rev Konstantin V. Salikhov
źródło

Freebase zamyka się, a jego baza danych wkrótce zostanie przeniesiona do Wikidata .

— cynddl

31

Dostępne są następujące linki

— Jakubee
źródło

25

W szczególności dla danych szeregów czasowych Quandl jest doskonałym zasobem - łatwo przeglądalnym katalogiem (głównie) czystych szeregów czasowych.

Jedną z ich najfajniejszych funkcji są ceny akcji z otwartymi danymi - tj. Dane finansowe, które można edytować w stylu wiki i nie są obciążone licencją.

— azza-bazoo
źródło

20

Enigma to repozytorium dostępnych publicznie zestawów danych. Bezpłatny plan oferuje publiczne wyszukiwanie danych, z 10 000 wywołań API miesięcznie. Nie wszystkie publiczne bazy danych są wymienione, ale lista ta wystarcza na typowe przypadki.

Użyłem go do badań akademickich i zaoszczędziłem dużo czasu.

Innym interesującym źródłem danych jest projekt @unitedstates , zawierający dane i narzędzia do ich gromadzenia, dotyczące Stanów Zjednoczonych (członkowie Kongresu, kształty geograficzne…).

— cynddl
źródło

18

Chciałbym wskazać na spis powszechny danych . Jest to inicjatywa Open Knowledge Foundation oparta na opiniach zwolenników otwartych danych i ekspertów z całego świata.

Wartość spisu otwartych danych jest otwarta, kierowana przez społeczność i systematyczna w gromadzeniu i aktualizacji bazy danych otwartych zbiorów danych na całym świecie w poszczególnych krajach, aw niektórych przypadkach, np. W Stanach Zjednoczonych, na poziomie miast .

Ponadto stanowi okazję do porównania różnych krajów i miast w wybranych obszarach zainteresowania.

— tomaskazemekas
źródło

18

Istnieje również inny zasób udostępniony przez The Guardian, British Daily na ich stronie internetowej. Wszystkie zestawy danych opublikowane przez Guardian Datablog są hostowane. Zestawy danych dotyczące kont Football Premier League Clubs, dane dotyczące inflacji i PKB w Wielkiej Brytanii, dane dotyczące nagród Grammy itp. Zestawy danych są dostępne na stronie

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Więcej zasobów. Niektóre zestawy danych są w formacie R lub istnieją komendy R do bezpośredniego importowania danych do R.

http://www.inside-r.org/howto/finding-data-internet

— binga
źródło

17

Niestandardowa wyszukiwarka Google

Możesz użyć niestandardowej wyszukiwarki Google dla zestawów danych:

Wyszukiwarka niestandardowa Google: zestawy danych

Zawiera 230 źródeł i meta-źródeł zestawów danych, w tym wszystkie wymienione w tym pytaniu. Prosimy o wykluczenie .gov i innych stron z wyników wyszukiwania poprzez dodanie „-.gov” lub „-site.com” do linii wyszukiwania. Działają inni operatorzy wyszukiwania Google.

Nie wahaj się ze mną skontaktować, jeśli masz pomysły, które witryny dodać.

IOGDS

Następująca usługa kategoryzuje ponad 1 000 000 publicznych zbiorów danych:

IOGDS: międzynarodowy otwarty zbiór danych rządowych

— Anton Tarasenko
źródło

Jakie są parametry podanego niestandardowego linku wyszukiwania? Czy wyszukuje na liście stron internetowych, słów kluczowych itp.?

— Amir Ali Akbari,

@AmirAliAkbari Przeszukuje źródła takie jak Data.gov, Quandl i inne duże hurtownie danych.

— Anton Tarasenko,

16

Późna odpowiedź, ale tutaj jest eklektyczna lista ponad 100 interesujących zbiorów danych

Wpis na blogu jest przyjemny i łatwy do przeczytania (nie mam powiązania). Warto zeskanować i zeskrobać kilka z góry:

Ostatnie słowa każdego więźnia z Teksasu straconego od 1984 r
10 000 zdjęć kotów z adnotacjami
2,2 miliona meczów szachowych

— philshem
źródło

15

Znalazłem ten link w Data Science Central z listą bezpłatnych zestawów danych: Duże zbiory danych dostępne za darmo

— Lafdez
źródło

15

Czy wiesz o testach PUMA i pobieranych zestawach danych? https://sites.google.com/site/farazahmad/pumadatasets

Obejmuje to:

TeraSort
Wikipedia
Element listy
Self-Join
Lista Adjacency
Baza filmów
Indeks-odwrócony indeks

— algarecu
źródło

15

Rząd Wielkiej Brytanii stanowi doskonałe źródło danych nieosobowych gromadzonych we wszystkich departamentach rządowych: http://data.gov.uk

— Federer
źródło

14

Jestem nowy na tym forum. Późno dzwonię w tej sprawie. Prowadzę (jestem współzałożycielem) katalog publicznie dostępnych portali danych. Istnieje ponad 1000 obecnie wymienionych i obejmujących portale na poziomie międzynarodowym, federalnym, stanowym, miejskim i akademickim na całym świecie.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
źródło

14

Dziwię się, że o tym nie wspomniałem, ponieważ wydaje się to dość oczywiste: http://www.kaggle.com konsekwentnie ma nowe i bardzo interesujące zbiory danych. Informacje są uważane za zasób, więc często firmy nie chcą ujawniać tych danych (plus obawy dotyczące prywatności). Kaggle udostępnia dane i ma nadzieję, że w zamian rozwiążesz z nimi problemy biznesowe.

— Baran
źródło

14

Zestawy danych

Torrenty akademickie
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
GeoLite Starsze bazy danych do pobrania
Odpowiedź na duże zbiory danych Quory
Publiczne zestawy Big Data
Houston Data Portal
Źródła danych Kaggle
Głęboki katalog zmienności genetycznej człowieka
Ceniona przez społeczność baza danych znanych osób, miejsc i rzeczy
Dane publiczne Google
Dane Banku Światowego
Dane NYC Taxi
Otwarte dane Philly Łączenie ludzi z danymi dla Filadelfii
Repozytorium sieci Interaktywne repozytorium danych z ponad 600 sieciami w ponad 20 kolekcjach; z dużych sieci społecznościowych, wykresów internetowych, sieci biologicznych, sieci komunikacyjnych i technologicznych itp.
Lista przydatnych źródeł Post na blogu zawiera wiele baz danych zestawów danych

Zestawy danych od awesome-datascience

— chenrui333
źródło

1

Czy możesz podać nam informacje o obu zestawach danych / linkach? To rzeczywiście zmniejszy ciężar osób poszukujących określonych typów zbiorów danych. Przejrzyj inne posty, aby zobaczyć, jakiego rodzaju informacji brakuje w twoich referencjach.

— Rubens

11

Jak wspomniałeś, interfejs API jest trudny, a nie dane. Wydaje się, że Quandl rozwiązuje ten problem, udostępniając ponad 10 milionów publicznie dostępnych zestawów danych w ramach jednego łatwego interfejsu API RESTful. Jeśli programowanie nie jest Twoją mocną stroną, istnieje bezpłatne narzędzie, które bardzo ułatwia ładowanie danych do Excela. Dodatkowo, jeśli zrobić cieszyć programowania, istnieje kilka natywne biblioteki w R, Python, Java i więcej .

— Ryzyko Briana
źródło

11

Aby dodać do możliwie nigdy nie kończącej się listy:

jak wspomniano przez cyndd istnieje wikidane ,

a dla uporządkowanej wiedzy strukturalnej Wolfram Alpha .

— image_doctor
źródło

11

Tę kolekcję natknąłem się na Github. Kolekcja jest również podzielona na kategorie.

https://github.com/caesar0301/awesome-public-datasets

I dla części dotyczącej

Czy nie może istnieć model open source do udostępniania zbiorów danych opracowany dla naukowców zajmujących się danymi?

możesz odnieść się do Przewodnika grupowego Leek na temat udostępniania danych

— Shagun Sodhani
źródło

10

Nie wszystkie dane rządowe są wymienione na data.gov - Sunlight Foundation przygotowała w lutym zestaw arkuszy kalkulacyjnych opisujących zestawy dostępnych danych.

— Steve Kallestad
źródło

9

Innym źródłem danych, którego nie widziałem na liście, jest Projekt GDELT . Ze strony:

Projekt GDELT monitoruje światowe wiadomości telewizyjne, drukowane i internetowe z niemal każdego zakątka każdego kraju w ponad 100 językach i identyfikuje ludzi, lokalizacje, organizacje, liczby, tematy, źródła i wydarzenia napędzające nasze globalne społeczeństwo co sekundę każdego dnia, tworząc bezpłatną otwartą platformę obliczeniową na całym świecie.

— dvdnglnd
źródło

8

Ten subreddit zawiera listę wielu znanych zestawów danych

Zestawy danych Reddit

Istnieje wiele żądań zestawów danych na tym subreddicie, na kilka z nich udzielono odpowiedzi.

— Jakiś facet
źródło

6

Stworzyłem do tego repozytorium github. Zestawy danych nie są duże, ale są minimalnymi przykładami służącymi do ćwiczenia i eksploracji technik modelowania predykcyjnego, które można następnie rozszerzyć na duże zestawy danych.

Biblia dotycząca uczenia maszynowego (MLPB)

Fajną / unikalną cechą tego repozytorium jest to, że każdy problem jest oznaczony tagami takimi jak [multi-class], [niezrównoważone dane], [regresja] itp., Co ułatwia znajdowanie określonych typów problemów / zestawów danych.

— Ben
źródło

6

Eurostats http://ec.europa.eu/eurostat i Europejski Bank Centralny https://www.ecb.europa.eu/stats/html/index.en.html zapewniają ogromną różnorodność zbiorów danych, z których często korzystam projekty pracy.

— Juha
źródło

6

Oprócz wszystkich tych zestawów danych, jeśli jesteś zainteresowany danymi związanymi z Indiami. Oficjalna strona rządu indyjskiego to

https://data.gov.in/

Zapewnia zestawy danych z różnych departamentów indyjskiego rządu, które mogą być dobrze wykorzystane do analizy dużych zbiorów danych i uczenia maszynowego.

— Gauraw
źródło

4

Yahoo właśnie wydało ogromny zestaw danych dla społeczności badawczej. Ciesz się

— Kasra Manshaei
źródło

4

Po prostu ładujemy pakiet MASS w R, uzyskujemy dostęp do wielu ramek danych lub zestawów danych.

pakiety install.packages („MASS”) wymagają („MASS”)

— dileep balineni
źródło

3

3 zestawy danych z https://www.jc-bingo.com/about

visitor-interests.csv Zagregowane zainteresowania odwiedzających zestawione na podstawie 1-tygodniowych dzienników dostępu do sieci. Obejmuje adres IP użytkownika, ciąg znaków klienta użytkownika, kraj użytkownika, języki i tematy stron, do których uzyskano dostęp. 19 926 rekordów, 2,9 Mb.
user-agent.csv Agenty użytkownika rzeczywistego użytkownika uporządkowane według popularności. 4826 rekordów, 716 Kb.
bots.csv Adresy IP robotów i ciągi agenta użytkownika wyodrębnione z dzienników dostępu do sieci. 1293 zapisy, 122 Kb.

— Jurij
źródło

3

Oczywiście istnieje duży zestaw publicznych baz danych.

Jeden jeszcze nie wymieniony, pochodzi z FAO (Organizacja Narodów Zjednoczonych ds. Wyżywienia i Rolnictwa), dostępnej pod adresem:

http://www.fao.org/faostat/

Zawiera dane dotyczące produkcji żywności dla krajów na całym świecie.

— scenograf
źródło