Pytania otagowane jako data-cleaning

4
Czyścić dane o niespójnym formacie w R?
Często mam do czynienia z niechlujnymi danymi ankiet, które wymagają dużo czyszczenia, zanim będzie można wykonać statystyki. Robiłem to „ręcznie” w programie Excel, czasami używając formuł Excela, a czasem sprawdzając wpisy jeden po drugim. Zacząłem robić coraz więcej tych zadań, pisząc skrypty do ich wykonania w języku R, co było …
16 r  data-cleaning 

1
Najnowocześniejsza deduplikacja
Jakie są najnowocześniejsze metody deduplikacji rekordów? Deduplikacja jest również czasami nazywana: łączenie rekordów, rozpoznawanie jednostek, rozpoznawanie tożsamości, scalanie / czyszczenie. Wiem na przykład o CBLOCK [1]. Byłbym wdzięczny, gdyby odpowiedzi zawierały również odniesienia do istniejącego oprogramowania wdrażającego metody. Wiem na przykład, że Mahout stosuje klastrowanie baldachimu . Jest też Duke, …

3
Jaki jest najlepszy sposób na Przekształcenie / Restrukturyzację danych?
Jestem asystentem naukowym w laboratorium (wolontariusz). Ja i mała grupa zlecono mi analizę danych dla zestawu danych pobranych z dużego badania. Niestety dane zostały zebrane za pomocą jakiejś aplikacji online i nie została zaprogramowana do wyświetlania danych w najbardziej użytecznej formie. Poniższe zdjęcia ilustrują podstawowy problem. Powiedziano mi, że nazywa …
12 r  excel  data-cleaning 

3
Automatyczne czyszczenie danych
Częstym problemem jest brak dobrej jakości danych ML: błędy w wartościach funkcji, błędne klasyfikacje instancji itp. Jednym ze sposobów rozwiązania tego problemu jest ręczne przejrzenie danych i sprawdzenie, ale czy istnieją inne techniki? (Założę się, że są!) Które są lepsze i dlaczego?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.