Mam pandas
ramkę danych i chciałbym móc przewidzieć wartości kolumny A na podstawie wartości w kolumnach B i C. Oto przykład zabawki:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Najlepiej byłoby, gdybyś miał coś takiego, ols(A ~ B + C, data = df)
ale kiedy patrzę na przykłady z bibliotek algorytmów scikit-learn
, wydaje się, że przekazuje dane do modelu z listą wierszy zamiast kolumn. Wymagałoby to ode mnie ponownego sformatowania danych w listy wewnątrz list, co wydaje się przede wszystkim zniweczyć cel używania pand. Jaki jest najbardziej pythonowy sposób uruchamiania regresji OLS (lub bardziej ogólnie dowolnego algorytmu uczenia maszynowego) na danych w ramce danych pandy?
formula
, przypadkowoformulas
TypeError: from_formula() takes at least 3 arguments (2 given)