Jakie są dobre przykłady do pokazania studentom studiów licencjackich?


9

Będę uczyć statystyki jako asystent nauczyciela w drugiej połowie tego semestru dla studentów studiów licencjackich zorientowanych na CS. Większość uczniów, którzy wzięli udział w zajęciach, nie ma motywacji, aby uczyć się tego przedmiotu i wzięła go tylko z powodu głównych wymagań. Chcę, aby przedmiot był interesujący i użyteczny, a nie tylko zajęcia, które uczą się zdawać egzamin B +.

Jako doktorant z matematyki niewiele wiedziałem o stosowaniu w prawdziwym życiu. Chcę poprosić o kilka rzeczywistych zastosowań statystyk licencjackich. Przykłady, których szukam to te (w duchu), takie jak:

1) Przedstawienie twierdzenia o limicie centralnym jest przydatne w przypadku niektórych dużych próbek danych.

2) Podaj kontrprzykład, że centralne twierdzenie o limicie nie ma zastosowania (powiedzmy te, które występują po rozkładzie Cauchy'ego).

3) Pokazanie, jak działa testowanie hipotez na znanych przykładach z życia za pomocą testu Z, testu t lub czegoś takiego.

4) Wykazanie, w jaki sposób nadmierna lub błędna początkowa hipoteza może dać złe wyniki.

5) Wykazanie, w jaki sposób wartość p i przedział ufności działały w (dobrze znanych) rzeczywistych przypadkach i gdzie nie działają tak dobrze.

6) Podobnie błędy typu I, typu II, moc statystyczna, poziom odrzucenia itd.α

Mój problem polega na tym, że chociaż mam wiele przykładów po stronie prawdopodobieństwa (rzut monetą, rzut kości, ruina hazardzisty, martingales, losowy spacer, paradoks trzech więźniów, problem monty hall, metody prawdopodobieństwa w projektowaniu algorytmu itp.), Nie wiem jak wiele kanonicznych przykładów po stronie statystyki. Mam na myśli poważne, interesujące przykłady, które mają jakąś wartość pedagogiczną i nie są bardzo sztucznie wymyślone, co wydaje się bardzo oderwane od prawdziwego życia. Nie chcę dawać uczniom fałszywego wrażenia, że ​​test Z i test T są wszystkim. Ale ze względu na moje czyste zaplecze matematyczne nie znam wystarczającej liczby przykładów, aby klasa była dla nich interesująca i przydatna. Więc szukam pomocy.

Poziom mojego ucznia jest wokół rachunku I i rachunku II. Nie mogą nawet pokazać wariancji standardowej wartości normalnej z definicji 1, ponieważ nie wiedzą, jak ocenić jądro Gaussa. Więc nic nieco teoretycznego lub praktycznego obliczenia (jak rozkład hipergeometryczny, prawo arcsin w losowym marszu 1D) nie zadziała. Chcę pokazać przykłady, które mogą zrozumieć nie tylko „jak”, ale także „dlaczego”. W przeciwnym razie nie jestem pewien, czy udowodnię to, co powiedziałem przez zastraszanie.


2
W tej chwili wydaje się to trochę szerokie i niezbyt skoncentrowane „niektóre rzeczywiste zastosowania statystyk licencjackich” nie są szczególnie odpowiednie dla formatu QA. W najlepszym razie jest to pytanie „z dużej listy”. Jeśli sam (3) może być zbyt szeroki i nieostry, ale może być gościem z niewielkim przeredagowaniem, a (4) może stać sam na sam z nieco większym skupieniem. (1) w żadnym wypadku nie może odnieść sukcesu, ponieważ centralne twierdzenie o limicie tak naprawdę nie mówi nam nic o tym, co się dziejen=100 lub n=1000 lub n=1010. To nie jest wynik próbki skończonej.
Glen_b

3
Twierdzenie Berry'ego-Esseena (którego, jak przypuszczam, nie uczysz na tym poziomie) może być użyte z próbkami skończonymi. Oczywiście nieoficjalnie, przykładowe środki poszczególnych rozkładów stają się coraz bardziej normalne wraz ze wzrostem wielkości próbek, ale tak naprawdę nie możemy powiedzieć „to jest główne twierdzenie graniczne”, ponieważ CLT tak naprawdę nic nie mówi na ten temat. Ponadto, aby pokazać, że rzeczy zbliżają się do normalnego rozkładu, potrzebujesz sekwencji wielkości próbek. W rzeczywistym świecie gromadzenie danych, które jest powszechne tylko w danych zbieranych w czasie (więc jeśli zakładasz, iid, możesz mieć pewne trudności).
Glen_b

2
Istnieją prawdziwe dane (z eksperymentu - jeśli nieco sztuczny) - 40000 rzutów monetą - link stąd
Glen_b

1
Możesz im pokazać coś o tym, jak próbki zachowują się w określonych sytuacjach wraz ze wzrostem wielkości próby - to całkiem przydatne; przypisywanie go CLT jest po prostu mało dokładne. Dane rzutu monetą mogą być do tego przydatne (podobnie jak dane, które same generują w podobny sposób). Być może jednak zechcesz przeczytać informacje w linku przed uzyskaniem danych, ponieważ istnieje ważna funkcja danych (która jest również motywacją do ich zebrania).
Glen_b

1
Przykłady prawie wszystkich rzeczy, które wymieniasz, znajdują się w dobrych tekstach statystyk wprowadzających, takich jak Freedman, Pisani i Purves . (Podłączyłem do trzeciej edycji, z której można łatwo korzystać za mniej niż 10 USD . Każda edycja będzie w porządku; najnowsza edycja może zawierać więcej aktualnych przykładów.)
whuber

Odpowiedzi:


1

Jednym dobrym sposobem może być zainstalowanie R ( http://www.r-project.org/ ) i wykorzystanie jego przykładów do nauczania. Dostęp do pomocy w języku R można uzyskać za pomocą poleceń „? T.test” itp. Na końcu każdego pliku pomocy znajdują się przykłady. Na przykład w t.test:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

wprowadź opis zdjęcia tutaj


1

Sugeruję zastosowanie centralnego twierdzenia granicznego do wstępnego określenia wielkości próby i znalezienia odpowiedzi na pytania typu „czy wysłałem wystarczającą liczbę kwestionariuszy” itp.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf stanowi doskonały przykład praktycznego zastosowania twierdzenia o limicie centralnym. Strategią dydaktyczną może być:

Teoria

* wyjaśnij różnicę między rozkładem próbkowania a rozkładem wartości szacunkowych, np. przez „płaski” rozkład rzutu kością w porównaniu z rozkładem średniej liczby kostek N (użyj R lub pozwól uczniom nawet bawić się samymi rysunkami Excela -wartości rozkładów a rozkład średnich)

* pokaż oparte na formule obliczenia percentyli dla rozkładu średniej (gdy jesteś głęboko w matematyce, możesz chcieć uzyskać wzór) - ten punkt odpowiada slajdom 10-17 w prezentacji połączonej powyżej

a następnie (jak w slajdzie 20 z prezentacji połączonej powyżej):

B) wniosek

* pokaż, w jaki sposób centralne twierdzenie graniczne pomaga określić wielkości próby dla pożądanych dokładności w szacunkach średniej

Ta aplikacja B) jest, z mojego doświadczenia, tego, że statystycy nie oczekują od statystyki - odpowiadając na pytania typu „czy mam wystarczającą ilość danych?”


1

Ponieważ uczysz studentów CS, dobrym zastosowaniem Centralnego Twierdzenia Granicznego może być oszacowanie średniej z ogromnych zbiorów danych (tj.> 100 milionów rekordów). Może być pouczające, aby pokazać, że nie jest konieczne obliczanie średniej dla całego zestawu danych, ale zamiast tego próbkowanie z zestawu danych i użycie średniej z próbki do oszacowania średniej z całego zestawu danych / bazy danych. Możesz pójść o krok dalej, jeśli chcesz i symulować zestaw danych, który ma drastycznie różne wartości dla różnych podgrup. Następnie możesz poprosić uczniów o zbadanie próbkowania warstwowego w celu uzyskania dokładniejszych szacunków.

Ponownie, ponieważ są studenci CS, możesz chcieć zrobić trochę ładowania, aby uzyskać również przedziały ufności lub oszacować wariancje bardziej złożonych statystyk. Jest to ładne skrzyżowanie statystyki i komputera, ponieważ moim zdaniem może prowadzić do większego zainteresowania tematem.


1

Zacząłem od wpisania komentarza, ale stał się zbyt długi ...

Pamiętaj, że są studentami CS. Nie sprawisz im satysfakcji tak, jak lubisz matematyków (zσalgebry) lub biologa, lekarzy (z danymi biologicznymi lub medycznymi oraz klasyczne przepisy na testowanie starych dobrych dobrych hipotez zerowych). Jeśli masz wystarczającą swobodę decydowania o orientacji wykładu, jeśli chodzi o to, że uczą się podstawowych pojęć, radzę dokonać radykalnej zmiany orientacji. Oczywiście, jeśli inni nauczyciele chcą, aby mogli wykonywać niektóre predefiniowane zadania, jesteś trochę utknięty.

Moim zdaniem spodoba się im, jeśli przedstawisz wnioski z „uczącego się” punktu widzenia, a jeśli przedstawisz testy z „teorii decyzji” lub „klasyfikacji” - krótko mówiąc, powinny lubić algorytmy. Algorytmy Grok!

Spróbuj także znaleźć zestawy danych związane z CS; np. czas trwania połączeń i liczba żądań na jednostkę czasu do serwera HTML może pomóc zilustrować wiele pojęć.

Uwielbiają uczyć się technik symulacji. Generatory Lehmer są łatwe do wdrożenia. Pokaż, jak symulować inne dystrybucje, odwracając plik cdf. Jeśli się tym zajmujesz, pokaż im algorytm Ziggurat Marsaglii. Aha, a generator MWC256 firmy Marsaglia to mały klejnot. Testy Dieharda Marsaglii (testy uczciwości generatorów jednorodnych) mogą pomóc zilustrować wiele koncepcji prawdopodobieństwa i statystyki. Możesz nawet przedstawić teorię prawdopodobieństwa opartą na „(niezależnych) strumieniach losowych podwójnych, oups, mam na myśli reale” - to trochę bezczelne, ale może być świetne.

Pamiętaj też, że ranking strony oparty jest na łańcuchu Markowa. To nie jest łatwa sprawa, ale po prezentacji Arthura Engela (myślę, że odniesieniem jest probabilistyczny liczydło - jeśli czytasz francuski, ta książka jest absolutnie obowiązkowa ), możesz łatwo przedstawić kilka zabawkowych przykładów, które im się spodobają . Myślę, że studentka CS będzie bardziej lubiła łańcuchy Discrete Markovt-testuje, nawet jeśli wydaje się trudniejszy materiał (prezentacja Engela bardzo ułatwia).

Jeśli wystarczająco dobrze opanujesz swój przedmiot, nie wahaj się być oryginalny. Wykłady „klasyczne” są w porządku, gdy uczysz czegoś, czego nie znasz. Powodzenia, a jeśli wydasz jakieś notatki z wykładów, daj mi znać!


1

Mówisz, że to studenci informatyki. Jakie są ich zainteresowania, czy jest to głównie informatyka teoretyczna, czy studenci są głównie motywowani przygotowaniami do pracy? Możesz także powiedzieć nam, jaki jest opis kursu!

Niezależnie od odpowiedzi na te pytania możesz zacząć od praktycznych statystyk pojawiających się w kontekstach informatycznych, takich jak (na przykład) projektowanie stron internetowych. Ta strona od czasu do czasu ma pytania na ten temat, takie jak współczynniki konwersji w czasie lub /stats/96853/comparing-sales-person-conversion-rates lub AB Testowanie innych czynników oprócz współczynnika konwersji .

Jest tu wiele takich pytań, pozornie od osób zaangażowanych w projektowanie stron internetowych. Sytuacja jest taka, że ​​masz stronę internetową (powiedz, że coś sprzedajesz). „Współczynnik konwersji”, jak rozumiem, to procent odwiedzających, którzy wykonują wybrane preferowane zadanie (takie jak zakup lub inny cel, jaki masz dla swoich użytkowników). Następnie, jako projektant stron internetowych, pytasz, czy układ strony wpływa na to zachowanie. Dlatego programujesz dwie (lub więcej) wersje strony internetowej, wybierasz losowo, którą wersję zaprezentować nowemu klientowi, i możesz w ten sposób porównać współczynniki konwersji, a na końcu wybrać wersję o najwyższym współczynniku konwersji.

Jest to problem projektowania eksperymentu porównawczego i potrzebujesz metod statystycznych do porównania wartości procentowych, a może bezpośrednio tabeli kontyngencji projektów względem konwersji / bez konwersji. Ten przykład może im pokazać, że statystyki mogą być dla nich przydatne w pracy związanej z tworzeniem stron internetowych! A od strony statystycznej otwiera się na wiele interesujących pytań na temat zasadności założeń ...

Aby połączyć się z tym, co mówisz o twierdzeniu o limicie centralnym, możesz zapytać, ile obserwacji potrzebujesz, zanim będziesz mógł traktować wartości procentowe jako normalnie rozłożone, i poproś, aby przestudiowali je za pomocą symulacji ...

Możesz przeszukać tę stronę w poszukiwaniu innych statystyk dotyczących pytań zadawanych przez typy programistów ...


-2

Sugeruję, aby przed jakimikolwiek dobrymi przykładami lepiej skupić się na jasnych definicjach. Z mojego doświadczenia wynika, że ​​prawdopodobieństwo i statystyki licencjackie to kurs pełen słów, których żaden z uczniów nie rozumie. W ramach eksperymentu zapytaj uczniów, którzy właśnie ukończyli kurs prawdopodobieństwa, czym jest „zmienna losowa”. Mogą dać ci przykłady, ale wątpię, aby większość podała ci jasną definicję tego. Czym dokładnie jest „prawdopodobieństwo”? Co to jest „dystrybucja”? Terminologia w statystyce jest jeszcze bardziej myląca. Większość książek licencjackich, które widziałem, wykonuje bardzo złą pracę, tłumacząc to. Przykłady i obliczenia są ładne, ale bez jasnych definicji nie są tak pomocne, jak mogłoby się wydawać. Mówiąc z własnego doświadczenia, właśnie dlatego nienawidziłem teorii prawdopodobieństwa jako licencjata. Mimo że moje zainteresowania były jak najbardziej oddalone od prawdopodobieństwa, teraz doceniam ten temat, ponieważ w końcu nauczyłem się, co tak naprawdę oznacza cała terminologia. Przepraszam, że nie jest to dokładnie to, o co prosiłeś, ale biorąc pod uwagę, że prowadzisz taką klasę, pomyślałem, że będzie to przydatna rada.


1
Nie jestem pewien, czy się zgadzam - przynajmniej nie w większości / we wszystkich przypadkach. Dla niektórych zrozumienie pojęciowe może, jak sugerujesz, poprzedzać zastosowanie do konkretnych przykładów, ale dla innych uczniów zrozumienie pojęciowe (szczególnie w przypadku skomplikowanych tematów) może nastąpić jedynie poprzez zastosowanie szczególnie pouczającego przykładu.
jsakaluk

Kiedy byłem studentem, ogólnie nie miałem trudności z czytaniem matematyki i rozwiązywaniem problemów. Wiedziałem, co robię i co muszę zrobić. Teoria prawdopodobieństwa lub statystyka jest „łatwiejsza” niż przedmioty, których się uczyłam. Ale nie miałem pojęcia, co robię ani dlaczego. Same podręczniki były dla mnie całkowicie nieprzydatne. Po ich przeczytaniu tak naprawdę nie zrozumiałem słownictwa. Jasne, mogę wykonać obliczenia, ale pod koniec dnia po prostu widziałem to jako pusty temat. Gdybym miał to zamieszanie, al fortiorti, nie-matematyczni uczniowie również.
Nicolas Bourbaki,

5
Zastanawiam się, czy może to być bardziej przydatna rada do nauczania prawdopodobnie bardzo jasnych studentów na czystym matematyce, niż do nauczania statystyki stosowanej do kierunków CS.
Silverfish

@Silverfish Nie jestem pewien, czy moja rada dotyczy tylko studentów matematyki. Można rozwinąć język teorii miary i pokazać, w jaki sposób wyraża się w nim prawdopodobieństwo, bez wchodzenia w teorię. To naprawdę nie różni się niczym od rachunku różniczkowego. Większość książek przynajmniej definiuje ich terminy, ale nie zagłębia się w ich teorię. Jeśli uczniowie zrozumieli, że statystyka jest odwrotnym problemem prawdopodobieństwa i że na przykład „troszczymy się” o średnią, ponieważ przybliża ona oczekiwaną wartość zmiennej losowej, mogą ją docenić znacznie bardziej.
Nicolas Bourbaki,
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.