Używam innego słowa w zależności od sposobu, w jaki korzystam z danych. Jeśli znalazłem gotowy zestaw danych i wskazałem na niego mój algorytm w sposób potwierdzający, to słowo „syntetyczny” jest w porządku.
Jednak często za każdym razem, gdy korzystam z tego rodzaju danych, wynalazłem dane z konkretnym zamiarem pokazania możliwości mojego algorytmu. Innymi słowy, wynalazłem dane w konkretnym celu uzyskania „dobrych wyników”. W takich okolicznościach lubię termin „wymyślony” wraz z wyjaśnieniem moich oczekiwań dotyczących danych. Wynika to z faktu, że nie chcę, aby ktokolwiek popełnił błąd, myśląc, że wskazałem mój algorytm na dowolny, syntetyczny zbiór danych, który znalazłem w pobliżu i naprawdę działał dobrze. Jeśli mam wybrane dane (do tego stopnia, że je rzeczywiście stworzyłem) specjalnie po to, aby mój algorytm działał dobrze, to tak mówię. Jest tak, ponieważ takie wyniki dostarczają dowodów, że mój algorytm może to zrobićdziałają dobrze, ale dostarczają tylko bardzo słabych dowodów, że można oczekiwać, że algorytm ogólnie się sprawdzi . Słowo „wymyślone” naprawdę dobrze podsumowuje fakt, że wybrałem dane z myślą o „dobrych wynikach” a priori.
„czy to sprawia wrażenie fałszywych danych?”
Nie, ale ważne jest, aby podczas raportowania wyników w dowolnym zestawie danych jasno określić źródło dowolnego zestawu danych i swoje oczekiwania a priori jako eksperymentatora. Termin „oszustwo” wyraźnie obejmuje aspekt ukrywania czegoś lub jawnego kłamstwa. # 1 sposobem, aby uniknąć popełnienia oszustwa w nauce jest po prostu być uczciwy i szczery o naturze danych i swoich oczekiwań. Innymi słowy, jeśli twoje dane są sfabrykowane i nie powiesz ich w jakikolwiek sposób , i istnieje pewien rodzaj oczekiwań, że dane nie zostaną sfabrykowane lub, co gorsza, twierdzisz, że dane są gromadzone w jakiś niefabrykowany sposób oczywiście, to znaczy"oszustwo". Nie rób tego. Jeśli chcesz użyć jakiegoś synonimu terminu „sfabrykowany”, który brzmi „lepiej”, na przykład „syntetyczny”, nikt nie będzie cię winił, ale jednocześnie nie sądzę, aby ktokolwiek zauważył różnicę oprócz ciebie.
Notatka dodatkowa:
Mniej oczywiste są okoliczności, w których ktoś twierdzi, że miał a priori oczekiwania, które w rzeczywistości są wyjaśnieniami post hoc . Jest to również oszukańcza analiza danych.
Istnieje niebezpieczeństwo, że dane zostaną wybrane specjalnie w celu „popisania się” możliwościami algorytmu, co często ma miejsce w przypadku danych syntetycznych.
DHHDD działać w ramach tej wąskiej definicji, ale jest to tak zwana analiza „potwierdzająca” i jest ogólnie uważana za najsilniejszą formę dowodów, jaką można przedstawić. Ponieważ kolejność zdarzeń koreluje z siłą dowodów, ważne jest ich szczegółowe udokumentowanie.
HDHD
Nie ma z tym problemu, o ile jesteś uczciwy i szczery w kwestii tego, co zrobiłeś. Jeśli dołożyłeś wszelkich starań, aby utworzyć zestaw danych, który daje „dobre wyniki”, powiedz to. Tak długo, jak dasz czytelnikowi znać kroki, które podjąłeś w swojej analizie danych, ma on informacje niezbędne do skutecznego wyważenia dowodów za lub przeciw twoim hipotezom. Jeśli nie jesteś uczciwy lub nie jesteś szczery , może to sprawiać wrażenie, że twoje dowody są silniejsze niż w rzeczywistości. Kiedy jesteś WIEDZĄ mniej niż uczciwy i szczery, aby sprawić, że twoje dowody wydają się silniejsze niż w rzeczywistości, to jest to w rzeczywistości oszukańcze.
W każdym razie dlatego wolę termin „wymyślony” dla takich zestawów danych, wraz z krótkim wyjaśnieniem, że faktycznie są one wybierane z myślą o hipotezie. „Contrived” przekazuje wrażenie, że nie tylko stworzyłem syntetyczny zestaw danych, ale zrobiłem to ze szczególnymi intencjami, które odzwierciedlają fakt, że moja hipoteza istniała już przed utworzeniem mojego zbioru danych.
ADx.y
tl; dr
Używaj dowolnego terminu, który ci się podoba, „syntetyczny”, „wymyślony”, „sfabrykowany”, „fikcyjny”. Jednak termin, którego używasz, jest niewystarczający, aby zapewnić, że Twoje wyniki nie wprowadzają w błąd . Upewnij się, że w swoim raporcie masz jasność na temat tego, jak powstały dane, w tym oczekiwań dotyczących danych i powodów, dla których wybrałeś wybrane dane.