Pytania otagowane jako reproducible-research

Praktyka badawcza polegająca na udostępnianiu publicznie pełnego opisu eksperymentu, całych zebranych danych i wszystkich skryptów analizy danych, tak aby opublikowane wyniki mogły zostać odtworzone w innym miejscu.

2
Ile wiemy o hakowaniu p „na wolności”?
Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi: analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec; niedostosowanie się do …

15
Kompletne merytoryczne przykłady odtwarzalnych badań z wykorzystaniem R.
Pytanie: Czy są jakieś dobre przykłady powtarzalnych badań z wykorzystaniem R, które są bezpłatnie dostępne online? Idealny przykład: W szczególności idealne przykłady zapewniłyby: Surowe dane (i najlepiej metadane wyjaśniające dane), Cały kod R, w tym import danych, przetwarzanie, analizy i generowanie danych wyjściowych, Sweave lub inne podejście do łączenia ostatecznego …

8
Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)
Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

3
Jak definiujemy „powtarzalne badania”?
Pojawiło się to teraz w kilku pytaniach i zastanawiałem się nad czymś. Czy pole jako całość przesunęło się w kierunku „odtwarzalności”, koncentrując się na dostępności oryginalnych danych i omawianego kodu? Zawsze uczono mnie, że istotą odtwarzalności niekoniecznie jest, jak już mówiłem, możliwość kliknięcia przycisku Uruchom i uzyskania takich samych wyników. …

8
Jak sprawić, by ludzie lepiej dbali o dane?
Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie całkowicie na arkuszach kalkulacyjnych Excel. Często formaty danych …

5
Czy wartość p jest zasadniczo bezużyteczna i niebezpieczna w użyciu?
Ten artykuł „ Kursy, ciągle aktualizowane” z NY Times przykuł moją uwagę. Krótko mówiąc, stwierdza to [Statystyka bayesowska] okazuje się szczególnie przydatna w podejściu do skomplikowanych problemów, w tym wyszukiwań takich jak ta przeprowadzona przez Straż Przybrzeżną w 2013 r. W celu odnalezienia zaginionego rybaka, Johna Aldridge'a (choć jak dotąd …

6
Jak zwiększyć długoterminową odtwarzalność badań (szczególnie przy użyciu R i Sweave)
Kontekst: W odpowiedzi na wcześniejsze pytanie dotyczące powtarzalnych badań Jake napisał Jednym z problemów, który odkryliśmy podczas tworzenia naszego archiwum JASA, była zmiana wersji i domyślnych pakietów CRAN. Tak więc w tym archiwum uwzględniamy również wersje używanych pakietów. System oparty na winietach prawdopodobnie się zepsuje, gdy ludzie zmienią swoje paczki …


2
Jakie są standardowe praktyki tworzenia syntetycznych zestawów danych?
Jako kontekst: podczas pracy z bardzo dużym zestawem danych czasami pojawia się pytanie, czy możemy stworzyć syntetyczny zestaw danych, w którym „znamy” związek między predyktorami a zmienną odpowiedzi lub relacje między predyktorami. Z biegiem lat wydaje mi się, że spotykam albo jednorazowe syntetyczne zestawy danych, które wyglądają, jakby zostały przygotowane …

4
Czy jako recenzent mogę uzasadnić żądanie podania danych i kodu, nawet jeśli czasopismo tego nie robi?
Ponieważ nauka musi być odtwarzalna, z definicji coraz częściej uznaje się, że dane i kod są zasadniczym składnikiem odtwarzalności, o czym dyskutuje Okrągły Stół Yale do udostępniania danych i kodów . Czy przeglądając manuskrypt czasopisma, który nie wymaga udostępniania danych i kodu, mogę poprosić o udostępnienie danych i kodu do …

1
Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?
Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …

1
Jak tworzyć kolorowe stoły za pomocą Sweave i xtable? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam Sweave i xtable do generowania raportu. Chciałbym dodać trochę koloru na stole. Ale nie udało mi się znaleźć żadnego sposobu …

1
Co jeśli wysoka dokładność walidacji, ale niska dokładność testu w badaniach?
Mam konkretne pytanie dotyczące walidacji w badaniach nad uczeniem maszynowym. Jak wiemy, system uczenia maszynowego prosi badaczy o szkolenie modeli na temat danych szkoleniowych, wybranie spośród modeli kandydujących według zestawu walidacyjnego i podanie dokładności zestawu testowego. W bardzo rygorystycznych badaniach zestaw testowy może być użyty tylko raz. Jednak nigdy nie …

3
Opcje hostingu dla publicznie dostępnych danych
Postanowiłeś więc poprzeć pomysł na powtarzalne badania i chcesz udostępnić swoje dane online, aby ludzie mogli je zobaczyć i wykorzystać. Pytanie brzmi: gdzie go hostujesz? Moja pierwsza skłonność to oczywiście prywatna przestrzeń internetowa, którą mam na serwerze uniwersyteckim, ale te rzeczy nie są wcale tak trwałe - jeśli odejdę, katalog …

4
Konsekwencje bieżącej debaty na temat znaczenia statystycznego
W ciągu ostatnich kilku lat różni uczeni podnieśli szkodliwy problem testowania hipotez naukowych, nazwany „stopniem swobody badacza”, co oznacza, że ​​naukowcy mają podczas swojej analizy wiele wyborów, które mogą wpływać na znalezienie wartości p <5%. Te niejednoznaczne wybory to na przykład, który przypadek należy uwzględnić, który przypadek jest sklasyfikowany jako …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.