Podkreślam wszystkie udzielone odpowiedzi, ale nazwijmy kota kotem: w wielu obszarach roboczych trudno jest przekonać kierownictwo, że inwestycja w „egzotyczne” oprogramowanie (np. Dla nich egzotyczne) jest konieczna, nie mówiąc już o zatrudnieniu kogoś, kto mógłby ustawić utrzymywać i utrzymywać. Powiedziałem niektórym klientom, że skorzystaliby na zatrudnieniu statystyk z dogłębnym doświadczeniem w oprogramowaniu i bazach danych, ale ogólna odpowiedź brzmi: „nie da się”.
Tak długo, jak to się nie stanie, istnieje kilka prostych rzeczy, które możesz zrobić za pomocą Excela, które ułatwią życie. Pierwszym z nich jest bez wątpienia kontrola wersji. Więcej informacji na temat kontroli wersji w programie Excel można znaleźć tutaj .
Kilka rzeczy na temat korzystania z programu Excel
Osobom używającym EXCEL bardzo często podoba się formuła EXCEL. Jest to jednak najważniejsze źródło błędów w arkuszach EXCEL i problemów przy próbie odczytania plików EXCEL, o ile mi wiadomo. Odmawiam pracy z arkuszami zawierającymi formuły.
Zmuszam również wszystkich, z którymi współpracuję, do dostarczenia arkuszy EXCEL w zwykłym formacie, co oznacza, że:
- Pierwszy wiersz zawiera nazwy różnych zmiennych
- Arkusz kalkulacyjny rozpoczyna się w komórce A1
- Wszystkie dane są umieszczane w kolumnach, bez przerw i bez formatowania.
- Jeśli to możliwe, dane są również zapisywane w formacie .csv. Nie jest trudno napisać skrypt VBA, który wyodrębni dane, sformatuje je i umieści w pliku .csv. Pozwala to również na lepszą kontrolę wersji, ponieważ codziennie można wykonać zrzut danych w formacie .csv.
Jeśli istnieje ogólna struktura danych, zawsze warto opracować szablon z bazowymi makrami VB w celu dodania danych i wygenerowania zestawu danych do analizy. Ogólnie rzecz biorąc pozwoli to uniknąć sytuacji, w której każdy pracownik wymyśli swój własny „genialny” system przechowywania danych i pozwoli na napisanie kodu w związku z tym.
To powiedziawszy, jeśli możesz przekonać wszystkich do korzystania z SQL (i interfejsu do wprowadzania danych), możesz połączyć R bezpośrednio z tym. To znacznie zwiększy wydajność.
Struktura danych i zarządzanie
Zasadniczo dane przechowywane w bazach danych (lub arkuszach EXCEL, jeśli nalegają) powinny być absolutnym minimum, co oznacza, że żadna zmienna, która może być obliczona na podstawie innych zmiennych, nie powinna być zawarta w bazie danych. Pamiętaj, że czasami może być korzystne przechowywanie również tych zmiennych pochodnych lub transformowanych, jeśli obliczenia są uciążliwe i zajmują dużo czasu. Ale powinny one być przechowywane w osobnej bazie danych, w razie potrzeby połączone z oryginalną bazą danych.
Należy również rozważyć to, co uważa się za jeden przypadek (a zatem jeden wiersz). Na przykład ludzie zwykle tworzą szeregi czasowe, tworząc nową zmienną dla każdego punktu czasowego. Chociaż ma to sens w EXCEL, wczytywanie tych danych wymaga dość pewnego odwrócenia matrycy danych. To samo dotyczy porównywania grup: powinien istnieć jeden wskaźnik grupy i jedna zmienna odpowiedzi, a nie zmienna odpowiedzi dla każdej grupy. W ten sposób struktury danych mogą być również znormalizowane.
Ostatnią rzeczą, na którą często napotykam, jest użycie różnych wskaźników. Długości podawane są w metrach lub centymetrach, temperatury w stopniach Celsjusza, Kelvina lub Farenheita ... W każdym interfejsie lub dowolnym szablonie należy wskazać jednostkę, w której mierzona jest zmienna.
I nawet po tych wszystkich rzeczach nadal chcesz przejść kontrolę danych, zanim zaczniesz od analizy. Znowu może to być dowolny skrypt uruchamiany codziennie (np. W nocy) na nowych wpisach i natychmiast oznaczający problemy (poza zakresem, zły typ, brakujące pola, ...), aby można je było jak najszybciej naprawić. Jeśli musisz wrócić do wpisu, który powstał 2 miesiące temu, aby dowiedzieć się, co jest nie tak i dlaczego, lepiej zdobądź dobre „umiejętności Sherlocka”, aby to poprawić.
moje 2 centy