Jako entuzjasta użytkowników R, bash, Python, asciidoc, (La) TeX, oprogramowania open source lub jakichkolwiek narzędzi un * x, nie mogę zapewnić obiektywnej odpowiedzi. Co więcej, jak często argumentuję przeciwko używaniu MS Excel lub jakiegokolwiek arkusza kalkulacyjnego (no cóż, widzisz swoje dane lub ich część, ale co jeszcze?), Nie przyczyniłbym się pozytywnie do debaty. Nie jestem jedyny, np
- Uzależnienie od arkusza kalkulacyjnego , od P. Burns.
- Precyzja i dokładność MS Excel , post na liście mailingowej R.
- L. Knusel, O dokładności rozkładów statystycznych w Microsoft Excel 97 , Statystyka obliczeniowa i analiza danych, 26: 375–377, 1998. ( pdf )
- BD McCullough i B. Wilson, O dokładności procedur statystycznych w Microsoft Excel 2000 i Excel XP , Statystyka obliczeniowa i analiza danych , 40: 713–721, 2002.
- M. Altman, J. Gill i poseł McDonald, Zagadnienia numeryczne w obliczeniach statystycznych dla naukowca społecznego , Wiley, 2004. [np. S. 12–14]
Mój kolega stracił wszystkie swoje makra z powodu braku kompatybilności wstecznej itp. Inny kolega próbował zaimportować dane genetyczne (około 700 badanych genotypowanych na 800 000 markerach, 120 miesięcy), tylko po to, by „na nie spojrzeć”. Excel zawiódł, Notatnik też się poddał ... Jestem w stanie „spojrzeć na nie” za pomocą vi i szybko sformatować dane za pomocą skryptu sed / awk lub perl. Myślę więc, że przy omawianiu przydatności arkuszy kalkulacyjnych należy wziąć pod uwagę różne poziomy. Albo pracujesz na małych zestawach danych i chcesz zastosować tylko elementarne dane statystyczne i być może jest to w porządku. Następnie to do ciebie należy zaufanie wyników lub zawsze możesz poprosić o kod źródłowy, ale być może łatwiej byłoby wykonać szybki test wszystkich procedur wbudowanych z testem porównawczym NIST. Nie sądzę, że odpowiada to dobremu sposobowi tworzenia statystyk po prostu dlatego, że nie jest to prawdziwe oprogramowanie statystyczne (IMHO), chociaż jako aktualizacja wyżej wymienionej listy, nowsze wersje MS Excel wydają się wykazywać poprawę w zakresie dokładności dla analizy statystyczne, patrz Keeling i Pavur, Badanie porównawcze rzetelności dziewięciu pakietów oprogramowania statystycznego ( CSDA 2007 51: 3811).
Mimo to około jeden na 10 lub 20 artykułów (w biomedycynie, psychologii, psychiatrii) zawiera grafiki wykonane w programie Excel, czasem bez usuwania szarego tła, poziomej czarnej linii lub automatycznej legendy (Andrew Gelman i Hadley Wickham z pewnością są tak szczęśliwi jak ja, kiedy to widzę). Ale ogólnie rzecz biorąc, jest to najczęściej używane „oprogramowanie” według niedawnej ankiety na FlowingData, która przypomina mi starą rozmowę Briana Ripleya (który jest współautorem pakietu MASS R i pisze doskonałą książkę na temat rozpoznawania wzorców , pośród innych):
Nie oszukujmy się: najczęściej używanym oprogramowaniem do statystyk jest Excel (B. Ripley przez Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf
Teraz, jeśli uważasz, że zapewnia to szybki i łatwiejszy sposób na wykonanie statystyk, dlaczego nie? Problem polega na tym, że wciąż są rzeczy, których nie da się zrobić (a przynajmniej jest to dość trudne) w takim środowisku. Myślę o bootstrapie, permutacji, analizie danych eksploracyjnych na wielu odmianach, by wymienić tylko kilka. O ile nie jesteś biegły w VBA (który nie jest ani skryptem, ani językiem programowania), jestem skłonny myśleć, że nawet niewielkie operacje na danych są lepiej obsługiwane w R (lub Matlab lub Python, pod warunkiem, że masz odpowiednie narzędzie do radzenia sobie z nimi z np. tak zwaną ramką danych). Przede wszystkim uważam, że Excel nie promuje bardzo dobrych praktyk dla analityka danych (ale dotyczy to również każdego „klikodromu”, patrz dyskusja na temat Medstats na temat potrzeby prowadzenia rejestru przetwarzania danych,Dokumentowanie analiz i edycji danych ). Znalazłem ten post w statystykach praktycznych, który ilustruje niektóre pułapki w programie Excel. Mimo to dotyczy Excela, nie wiem jak to tłumaczy na GDocs.
Jeśli chodzi o dzielenie się swoją pracą, myślę, że Github (lub Gist dla kodu źródłowego) lub Dropbox (chociaż umowa EULA może zniechęcić niektórych ludzi) to bardzo dobre opcje (historia zmian, zarządzanie dotacjami w razie potrzeby itp.). Nie mogę zachęcić do korzystania z oprogramowania, które zasadniczo przechowuje dane w formacie binarnym. Wiem, że można go zaimportować w R, Matlab, Stata, SPSS, ale moim zdaniem:
- dane powinny ostatecznie mieć format tekstowy, który może być odczytany przez inne oprogramowanie statystyczne;
- analiza powinna być odtwarzalna, co oznacza, że powinieneś dostarczyć kompletny skrypt do analizy i powinien on zostać uruchomiony (zbliżamy się do idealnego przypadku w pobliżu tutaj ...) w innym systemie operacyjnym w dowolnym momencie;
- twoje własne oprogramowanie statystyczne powinno implementować uznane algorytmy i powinien istnieć łatwy sposób na aktualizację, aby odzwierciedlić obecne najlepsze praktyki w modelowaniu statystycznym;
- wybrany przez ciebie system udostępniania powinien obejmować funkcje kontroli wersji i współpracy.
Otóż to.