Statystyki i duże zbiory danych reproducible-research

2

Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi: analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec; niedostosowanie się do …

94 hypothesis-testing statistical-significance p-value model-selection reproducible-research

15

Kompletne merytoryczne przykłady odtwarzalnych badań z wykorzystaniem R.

Pytanie: Czy są jakieś dobre przykłady powtarzalnych badań z wykorzystaniem R, które są bezpłatnie dostępne online? Idealny przykład: W szczególności idealne przykłady zapewniłyby: Surowe dane (i najlepiej metadane wyjaśniające dane), Cały kod R, w tym import danych, przetwarzanie, analizy i generowanie danych wyjściowych, Sweave lub inne podejście do łączenia ostatecznego …

71 r references reproducible-research

8

Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)

Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

3

Jak definiujemy „powtarzalne badania”?

Pojawiło się to teraz w kilku pytaniach i zastanawiałem się nad czymś. Czy pole jako całość przesunęło się w kierunku „odtwarzalności”, koncentrując się na dostępności oryginalnych danych i omawianego kodu? Zawsze uczono mnie, że istotą odtwarzalności niekoniecznie jest, jak już mówiłem, możliwość kliknięcia przycisku Uruchom i uzyskania takich samych wyników. …

50 reproducible-research philosophical

8

Jak sprawić, by ludzie lepiej dbali o dane?

Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie całkowicie na arkuszach kalkulacyjnych Excel. Często formaty danych …

42 dataset reproducible-research quality-control

5

Czy wartość p jest zasadniczo bezużyteczna i niebezpieczna w użyciu?

Ten artykuł „ Kursy, ciągle aktualizowane” z NY Times przykuł moją uwagę. Krótko mówiąc, stwierdza to [Statystyka bayesowska] okazuje się szczególnie przydatna w podejściu do skomplikowanych problemów, w tym wyszukiwań takich jak ta przeprowadzona przez Straż Przybrzeżną w 2013 r. W celu odnalezienia zaginionego rybaka, Johna Aldridge'a (choć jak dotąd …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

6

Jak zwiększyć długoterminową odtwarzalność badań (szczególnie przy użyciu R i Sweave)

Kontekst: W odpowiedzi na wcześniejsze pytanie dotyczące powtarzalnych badań Jake napisał Jednym z problemów, który odkryliśmy podczas tworzenia naszego archiwum JASA, była zmiana wersji i domyślnych pakietów CRAN. Tak więc w tym archiwum uwzględniamy również wersje używanych pakietów. System oparty na winietach prawdopodobnie się zepsuje, gdy ludzie zmienią swoje paczki …

31 r reproducible-research project-management

3

Kogo śledzić na github, aby dowiedzieć się o najlepszych praktykach w analizie danych?

Pomocne jest przestudiowanie kodu analizy danych ekspertów. Ostatnio czytałem github i jest tam wiele osób udostępniających kod analizy danych. Obejmuje to kilka pakietów R (które są oczywiście dostępne bezpośrednio z CRAN), ale także kilka przykładów powtarzalnych badań, szczególnie przy użyciu R ( patrz lista R na github ). Kim są …

28 r reproducible-research

2

Jakie są standardowe praktyki tworzenia syntetycznych zestawów danych?

Jako kontekst: podczas pracy z bardzo dużym zestawem danych czasami pojawia się pytanie, czy możemy stworzyć syntetyczny zestaw danych, w którym „znamy” związek między predyktorami a zmienną odpowiedzi lub relacje między predyktorami. Z biegiem lat wydaje mi się, że spotykam albo jednorazowe syntetyczne zestawy danych, które wyglądają, jakby zostały przygotowane …

26 modeling reproducible-research synthetic-data

4

Czy jako recenzent mogę uzasadnić żądanie podania danych i kodu, nawet jeśli czasopismo tego nie robi?

Ponieważ nauka musi być odtwarzalna, z definicji coraz częściej uznaje się, że dane i kod są zasadniczym składnikiem odtwarzalności, o czym dyskutuje Okrągły Stół Yale do udostępniania danych i kodów . Czy przeglądając manuskrypt czasopisma, który nie wymaga udostępniania danych i kodu, mogę poprosić o udostępnienie danych i kodu do …

23 dataset validation reproducible-research journals

1

Czy zgłoszono najnowszą wydajność wykorzystania wektorów akapitowych do analizy sentymentów?

Byłem pod wrażeniem wyników w artykule ICML 2014 „ Rozproszone reprezentacje zdań i dokumentów ” Le i Mikołaja. Technika, którą opisują, zwana „wektorami akapitowymi”, uczy się nienadzorowanej reprezentacji arbitralnie długich akapitów / dokumentów, w oparciu o rozszerzenie modelu word2vec. W artykule przedstawiono najnowsze wyniki analizy nastrojów przy użyciu tej techniki. …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

1

Jak tworzyć kolorowe stoły za pomocą Sweave i xtable? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam Sweave i xtable do generowania raportu. Chciałbym dodać trochę koloru na stole. Ale nie udało mi się znaleźć żadnego sposobu …

17 r reproducible-research

1

Co jeśli wysoka dokładność walidacji, ale niska dokładność testu w badaniach?

Mam konkretne pytanie dotyczące walidacji w badaniach nad uczeniem maszynowym. Jak wiemy, system uczenia maszynowego prosi badaczy o szkolenie modeli na temat danych szkoleniowych, wybranie spośród modeli kandydujących według zestawu walidacyjnego i podanie dokładności zestawu testowego. W bardzo rygorystycznych badaniach zestaw testowy może być użyty tylko raz. Jednak nigdy nie …

15 machine-learning cross-validation reproducible-research

3

Opcje hostingu dla publicznie dostępnych danych

Postanowiłeś więc poprzeć pomysł na powtarzalne badania i chcesz udostępnić swoje dane online, aby ludzie mogli je zobaczyć i wykorzystać. Pytanie brzmi: gdzie go hostujesz? Moja pierwsza skłonność to oczywiście prywatna przestrzeń internetowa, którą mam na serwerze uniwersyteckim, ale te rzeczy nie są wcale tak trwałe - jeśli odejdę, katalog …

12 reproducible-research

4

Konsekwencje bieżącej debaty na temat znaczenia statystycznego

W ciągu ostatnich kilku lat różni uczeni podnieśli szkodliwy problem testowania hipotez naukowych, nazwany „stopniem swobody badacza”, co oznacza, że naukowcy mają podczas swojej analizy wiele wyborów, które mogą wpływać na znalezienie wartości p <5%. Te niejednoznaczne wybory to na przykład, który przypadek należy uwzględnić, który przypadek jest sklasyfikowany jako …

10 hypothesis-testing inference philosophical reproducible-research social-science

Pytania otagowane jako reproducible-research