Szukam informacji na temat sposobu, w jaki inni organizują swój kod R i dane wyjściowe.
Moja obecna praktyka polega na pisaniu kodu w blokach w pliku tekstowym jako takim:
#=================================================
# 19 May 2011
date()
# Correlation analysis of variables in sed summary
load("/media/working/working_files/R_working/sed_OM_survey.RData")
# correlation between estimated surface and mean perc.OM in epi samples
cor.test(survey$mean.perc.OM[survey$Depth == "epi"],
survey$est.surf.OM[survey$Depth == "epi"]))
#==================================================
Następnie wklejam dane wyjściowe do innego pliku tekstowego, zwykle z pewnymi adnotacjami.
Problemy z tą metodą to:
- Kod i dane wyjściowe nie są jawnie powiązane inaczej niż według daty.
- Kod i dane wyjściowe są uporządkowane chronologicznie, dlatego ich wyszukiwanie może być trudne.
Zastanawiałem się nad stworzeniem jednego dokumentu Sweave ze wszystkim, ponieważ mógłbym wtedy stworzyć spis treści, ale wydaje się, że może to być bardziej kłopotliwe niż korzyści, jakie by to zapewniło.
Daj mi znać o wszelkich skutecznych procedurach dotyczących organizacji kodu R i danych wyjściowych, które pozwoliłyby na wydajne wyszukiwanie i edycję analizy.
sink()
i capture.output()
. To wspaniale.
sink()
lubcapture.output()
mogą być Twoimi przyjaciółmi. Warto wziąć pod uwagę narzędzia do raportowania, takie jak Hmisc , Sweave lub napar (twój punkt 1). Systemy kontroli wersji ( rcs , svn lub git ) mogą pomóc w punkcie 2.