Ponieważ pierwotnie napisałem tę odpowiedź, zaktualizowałem ją na wiele sposobów, które są teraz dostępne, aby uzyskać dostęp do przykładowych zestawów danych w Pythonie. Osobiście mam tendencję do trzymania się dowolnego pakietu, z którego już korzystam (zwykle jest to poroże morskie lub pandy). Jeśli potrzebujesz dostępu w trybie offline, instalacja zestawu danych za pomocą Quilt wydaje się być jedyną opcją.
Seaborn
Doskonały pakiet do drukowania seaborn
ma kilka wbudowanych przykładowych zestawów danych.
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa
Pandy
Jeśli nie chcesz importować seaborn
, ale nadal chcesz uzyskać dostęp do jego przykładowych zestawów danych , możesz użyć podejścia @ andrewwowens do przykładowych danych z porostów morskich:
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
Zwróć uwagę, że przykładowe zestawy danych zawierające kolumny kategorialne mają zmodyfikowany typ kolumny przez,sns.load_dataset()
a wynik może nie być taki sam, jeśli zostanie pobrany bezpośrednio z adresu URL. Przykładowe zestawy danych tęczówki i końcówek są również dostępne w repozytorium github pandas tutaj .
Przykładowe zestawy danych R.
Ponieważ każdy zbiór danych można odczytać za pośrednictwem pd.read_csv()
możliwe jest, aby uzyskać dostęp do przykładowych zestawów danych wszystkie R poprzez kopiowanie adresów URL z tym R zbioru danych repozytorium .
Dodatkowe sposoby ładowania przykładowych zestawów danych języka R obejmują
statsmodel
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
i PyDataset
from pydataset import data
iris = data('iris')
scikit-learn
scikit-learn
zwraca przykładowe dane jako tablice numpy, a nie ramkę danych pandy.
from sklearn.datasets import load_iris
iris = load_iris()
Kołdra
Quilt to menedżer zbiorów danych stworzony w celu ułatwienia zarządzania zbiorem danych. Zawiera wiele typowych przykładowych zestawów danych, takich jak
kilka z repozytorium próbek uciml . Strona szybkiego startu pokazuje, jak zainstalować i zaimportować zestaw danych tęczówki:
$ pip install quilt
$ quilt install uciml/iris
Po zainstalowaniu zestawu danych jest on dostępny lokalnie, więc jest to najlepsza opcja, jeśli chcesz pracować z danymi w trybie offline.
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
sepal_length sepal_width petal_length petal_width class
0 5.1 3.5 1.4 0.2 Iris-setosa
1 4.9 3.0 1.4 0.2 Iris-setosa
2 4.7 3.2 1.3 0.2 Iris-setosa
3 4.6 3.1 1.5 0.2 Iris-setosa
4 5.0 3.6 1.4 0.2 Iris-setosa
Quilt obsługuje również wersjonowanie zestawów danych i zawiera krótki opis każdego zestawu danych.