Mam dane równoważne z:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Chciałbym przeprowadzić analizę tego zestawu danych, aby uzyskać macierz korelacji, która miałaby implikację podobną do: jeśli kupiłeś x, prawdopodobnie kupisz y.
Używając Pythona (a może cokolwiek innego niż MATLAB), jak mogę to zrobić? Pomogą w tym niektóre podstawowe wytyczne lub wskazówki, gdzie powinienem szukać.
Dziękuję Ci,
Edycja - czego się nauczyłem:
Tego rodzaju problemy nazywane są wykrywaniem reguł asocjacyjnych. Wikipedia ma dobry artykuł opisujący niektóre z popularnych algorytmów. Klasycznym algorytmem do tego wydaje się być Apriori, ponieważ Agrawal i in. glin.
Doprowadziło mnie to do pomarańczowego , pakietu eksploracji danych z interfejsem Pythona. W przypadku Linuksa najlepszym sposobem instalacji wydaje się być źródło ze dostarczonego pliku setup.py
Domyślnie pomarańczowy odczytuje dane wejściowe z plików, sformatowane na jeden z kilku obsługiwanych sposobów.
Wreszcie, prosta nauka reguł stowarzyszenia Apriori jest prosta w kolorze pomarańczowym.
arules
byłbyś wart spojrzenia. Może „reguły stowarzyszenia” to dobry termin wyszukiwania