Mam zbiór danych użytkowników kupujących produkty ze strony internetowej.
Atrybuty, które mam, to identyfikator użytkownika, region (stan) użytkownika, identyfikator kategorii produktu, identyfikator słowa kluczowego produktu, identyfikator słowa kluczowego witryny internetowej i kwota sprzedaży produktu.
Celem jest wykorzystanie informacji o produkcie i stronie internetowej w celu ustalenia tożsamości użytkowników, takich jak „młody młody gracz” lub „mama w domu”.
Załączam przykładowe zdjęcie jak poniżej:
Istnieje razem 1940 unikalnych kategorii i 13845 niepowtarzalnych słów kluczowych dla produktów. Witryna zawiera 13063 unikalnych słów kluczowych. Cały zestaw danych jest ogromny, ponieważ są to dzienne dane logowania.
Mam na myśli tworzenie klastrów, ponieważ nie są one nadzorowane, ale te id są uporządkowane w liczbie nieposiadającej znaczenia numerycznego. Więc nie wiem, jak zastosować algorytm. Myślę również o klasyfikacji. Jeśli dodam kolumnę klasy na podstawie wielkości sprzedaży zakupionego produktu. Myślę, że klastrowanie jest bardziej preferowane. Nie wiem, jakiego algorytmu powinienem użyć w tym przypadku, ponieważ wymiary identyfikatora słowa kluczowego mogą być większe niż 10000 (każdy produkt może mieć wiele słów kluczowych, podobnie jak strona internetowa). Muszę użyć Spark do tego projektu.
Czy ktoś może mi pomóc z niektórymi pomysłami lub sugestiami?
Dziękuję bardzo!