Szukam statystyk (i prawdopodobnie prawdopodobieństwa) pytań do wywiadu, od najbardziej podstawowych po bardziej zaawansowane. Odpowiedzi nie są konieczne (chociaż linki do konkretnych pytań na tej stronie byłyby dobre).
Szukam statystyk (i prawdopodobnie prawdopodobieństwa) pytań do wywiadu, od najbardziej podstawowych po bardziej zaawansowane. Odpowiedzi nie są konieczne (chociaż linki do konkretnych pytań na tej stronie byłyby dobre).
Odpowiedzi:
Nie jestem pewien, co to za praca, ale myślę, że „Wyjaśnij x nowicjuszowi” prawdopodobnie byłby dobry -
a) ponieważ prawdopodobnie będą musieli to zrobić w pracy
b) to dobry test zrozumienia.
Standardowe Q, w którym pracuję, to:
Rzuć okiem na wyniki wielokrotnej regresji logistycznej z pakietu statystycznego, o którym twierdzisz, że korzystałeś (najlepiej z tego, którego używamy). XXX jest niezależną zmienną będącą głównym przedmiotem zainteresowania. Jak bardzo interpretujesz wyniki kolegom ze znajomością tematu, ale bez formalnego szkolenia statystycznego? (W razie potrzeby należy podać osobną interpretację oszacowania punktowego, CI, wartości p).
Możesz również zastanowić się, czy wywiad jest najlepszym medium do pomiaru interesującej konstrukcji. Jeśli chcesz zmierzyć wcześniejszą wiedzę na temat prawdopodobieństwa lub statystyki, lepiej oprzeć się bardziej na teście pisemnym. Możesz zadawać więcej pytań, a tym samym zwiększyć wiarygodność pomiaru. Jest bardziej znormalizowany zarówno w administracji, jak i w punktacji. A kiedy instrument zostanie opracowany, prawdopodobnie zużywa mniej zasobów do administrowania.
Następnie możesz wykorzystać wywiad jako bardziej skoncentrowane narzędzie, które analizuje takie czynniki, jak umiejętności werbalne i interpersonalne.
Zadano mi dwa pytania:
1) Dopasowujesz regresję wielokrotną, aby zbadać wpływ określonej zmiennej, którą interesuje pracownik w innym dziale. Zmienna powraca nieznacząca, ale twój współpracownik mówi, że jest to niemożliwe, ponieważ wiadomo, że ma wpływ. Co byś powiedział / zrobił?
2) Masz 1000 zmiennych i 100 obserwacji. Chcesz znaleźć znaczące zmienne dla konkretnej odpowiedzi. Co byś zrobił?
Oto duży zestaw danych. Jaki masz plan radzenia sobie z wartościami odstającymi? Co powiesz na brakujące wartości? Co powiesz na transformacje?
Czy mogą poradzić sobie z rzeczywistymi danymi?
Wiele pytań / odpowiedzi na tej stronie może dać pomysły na dobre pytania. Dam listę z takimi linkami, które moim zdaniem są dobre. Posty, na które odpowiedziałem, są nadreprezentowane, ponieważ znam je lepiej, nie dlatego, że niekoniecznie są najlepsze! Daję krótkie komentarze do każdego linku, abyś mógł zdecydować, czy chcesz go użyć.
Jaka jest intuicja stojąca za SVD? „Czy możesz wyjaśnić jednemu z naszych klientów, jak działa SVD?”
Szacowanie maksymalnego prawdopodobieństwa (MLE) w prostych słowach „Czy możesz wyjaśnić w języku nietechnicznym ideę oszacowania maksymalnego prawdopodobieństwa?”
Taleb i Czarny Łabędź „Powiedz mi, co to jest czarny łabędź i dlaczego to jest tak ważne? Kiedy to jest ważne?”
Wnioskowanie statystyczne, gdy próbka „jest” populacją ”Co możesz powiedzieć o wnioskowaniu statystycznym, gdy próbka jest całą populacją?”
Dobroć dopasowania i który model wybrać regresję liniową lub Poissona „Mamy problem z regresją, w którym odpowiedź jest zmienną zliczającą. Które z nich wybrałbyś w tym kontekście, zwykłe najmniejsze kwadraty lub regresja Poissona (a może jakieś inne)? Wyjaśnij swój wybór , jakie są główne różnice między tymi modelami? ”
Jaka jest różnica między wariancją skończoną a nieskończoną „Czy możesz wyjaśnić, w możliwie najprostszym języku, co to znaczy, że zmienna losowa ma nieskończone oczekiwanie lub nieskończoną wariancję? Jakie jest praktyczne znaczenie tego rozróżnienia? Wyjaśnij za pomocą przykład."
Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej? „Jak zbudowałbyś złożony model regresji, gdy istnieje wiele możliwych zmiennych predykcyjnych? Opisz różne możliwe strategie i opowiedz o problemach z każdą z nich”
Jak radzić sobie z idealną separacją w regresji logistycznej? „Na czym polega problem separacji w regresji logistycznej, jej przyczyny, objawy? Co możesz zrobić, aby ją rozwiązać, jeśli naprawdę jest to problem?”
Dlaczego macierz korelacji musi być dodatnia półokreślona i co to znaczy być dodatnim półokreślonym? i
Co mówi mi nie pozytywna określona macierz kowariancji o moich danych? „Wyjaśnij, dlaczego macierz kowariancji musi być dodatnia (pół) określona i co to oznacza. Jak można wykorzystać ten fakt?”
Jakie są wielowymiarowe wersje mediany „Czy możesz zaproponować sposób uogólnienia mediany na dane wielowymiarowe?”
Interpretowanie terminów interakcji w regresji logit ze zmiennymi kategorialnymi oraz Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji? i Dwa negatywne główne efekty, ale jeszcze pozytywny efekt interakcji? oraz Uwzględnienie interakcji, ale nie głównych efektów w modelu oraz Jak interpretować główne efekty, gdy efekt interakcji nie jest znaczący? „Wyjaśnij, co należy rozumieć przez interakcję w modelach regresji. W szczególności, co to znaczy, jeśli interakcja jest znacząca, a główne efekty nie są? Czy istnieje jakaś różnica w interpretacji interakcji między zwykłą regresją liniową a regresją logistyczną?”
Jaki może być powód zastosowania transformacji pierwiastka kwadratowego w danych? oraz odpowiednia transformacja danych „Kiedy, jak i dlaczego transformujesz zmienną odpowiedzi w modelu regresji (lub ANOVA)? Czy są jakieś alternatywy?
Czy mogę ufać wynikom ANOVA dla DV nie dystrybuowanego normalnie? „Jak potraktowałbyś ANOVA z nietypowymi resztkami?
Jak mogę skutecznie modelować sumę zmiennych losowych Bernoulliego?
Kiedy stosować uogólnione równania szacunkowe vs. modele efektów mieszanych?
Co się tutaj dzieje, gdy używam kwadratowej straty w ustawieniach regresji logistycznej? „Dlaczego wykorzystujemy maksymalne prawdopodobieństwo do regresji logistycznej? Dlaczego nie tylko kwadraty?”
Raz zapytano mnie, jak wytłumaczyłbym znaczenie centralnego twierdzenia o granicy dla klasy studentów pierwszego stopnia w naukach społecznych, którzy ledwo mają wiedzę na temat statystyki.
Jak numerujesz coś, co nie jest liczbowe?
Przykład „Automatyczne wyodrębnianie funkcji do klasyfikacji danych audio”
Uzasadnienie: Czy mogą wymyślić, jak analizować statystycznie coś, co nie znajduje się już w dużym stole?
Jak zapobiec nadmiernemu dopasowaniu podczas tworzenia modelu statystycznego?
Dobra odpowiedź: walidacja krzyżowa
Często pytam „jak byś zdefiniował / wyjaśnił, czym jest prognozowanie?”
Odpowiedź na tego rodzaju bardzo ogólne pytanie pomaga mi sprawdzić, czy ludzie są związani z konkretnym przypadkiem prognozowania. Nie ma właściwej odpowiedzi, ale udzielenie syntetycznej odpowiedzi podczas wywiadu nie zawsze jest łatwe :)
W kontekście danych obserwacyjnych:
Rozważ ten model regresji zastosowany do tego istotnego problemu. Co, jeśli w ogóle, można interpretować przyczynowo? [Dalsza sonda] Czego trzeba się nauczyć, aby zmienić zdanie?
Jak policzysz liczbę drzew sandałowych w Bangalore?
Pod nagłówkiem Przyczynowość a korelacja :
Często wykorzystuje się zaangażowanie klienta / użytkownika jako funkcje modelu predykcyjnego. Na przykład osoby, które klikają ten przycisk, częściej subskrybują niż osoby, które tego nie robią. Ludzie, którzy robią zakupy w poniedziałki, częściej robią zakupy ponownie niż ci, którzy robią zakupy we wtorki.
Jeśli dojdziemy do skrajności: użytkownicy, którzy klikną „kup”, częściej kupują produkt niż użytkownicy, którzy nie klikają zakupu.
Ale oczywiście nie jest to bardzo pomocne w wyjaśnieniu, dlaczego niektórzy użytkownicy subskrybują, a niektórzy nie.
Jak poszedłbyś na balansowanie przy użyciu funkcji klienta, które wyjaśniają, dlaczego subskrybują, a które są wysoce skorelowane z subskrypcją, ale są niezbędne do wykonania zadania?
Oto zestaw TinkerToy . Pokaż, jak działa odległość euklidesowa w trzech wymiarach. Teraz pokaż mi, jak działa regresja wielokrotna.
Czy potrafią wyjaśnić, w jaki sposób statystyki działają w świecie fizycznym?
Prowadzimy centrum obsługi klienta. Otrzymujemy 1 milion połączeń miesięcznie. Jak zmniejszyć to do dziesięciu tysięcy?
Wiele pytań, które zadajemy, jest podobnych do tych, które zostały już opisane. Ale niektóre, których jeszcze nie przeczytałem, które są używane: możesz zostać poproszony o naszkicowanie programu na tablicy, aby zrobić coś takiego: symulować rzut kostką lub inny problem prawdopodobieństwa lub obliczyć serię liczb pierwszych (np. Wszystkie liczby pierwsze mniejsze niż 1 000 000) - możesz to zrobić w dowolnym języku, ale większość ludzi wybiera R, a niektórzy wybierają Python (wierzę), ale myślę, że możesz wybrać Stata, SAS, SPSS , Matlab itp. Prawdopodobnie zostaną Ci zadane pytania w celu zbadania głębi twojej znajomości wybranego języka programowania - dlaczego na przykład użyj R zamiast pętli for.
Możesz również zostać poproszony o zaprojektowanie eksperymentu lub innego badania w celu zbadania czegoś - zwykle czegoś praktycznego - czasami będzie to związane z pracą, którą wykonujemy, ale często nie. (Nie powinieneś mieć wiedzy o pracy, którą wykonujemy, ale powinieneś być w stanie uchwycić sedno problemu, o którym jeszcze nie słyszałeś, i spekulować na jego temat inteligentnie, nawet gdybyś miał pewną wiedzę dotyczącą domeny, którą znasz to było złe - w porządku, nie wymaga się wiedzy o domenach). Możesz zostać poproszony o uwzględnienie np. Mocy.
Przeprowadzając analizę wariancji zmiennej ilościowej, czasami okazało się, że częstotliwość zmiennej jest bardzo wysoka (> 5), a następnie wykorzystujemy dokładny test Fishera, aby znaleźć niezależność zmiennej.
Średnia płatna frekwencja w grach Yankees w ubiegłym roku wynosiła 55 000. Losowo pytasz grupę ludzi w Nowym Jorku, czy poszli na mecz Yankees w zeszłym sezonie, a jeśli tak, rejestrujesz płatną frekwencję. Jaka jest średnia płatna frekwencja w grach, w której uczestniczyły osoby, o które pytałeś, kto poszedł na grę?
Dam ci podpowiedź do mojej odpowiedzi (wskazówki nie podano): próbkowanie z tendencją do długości. Na tym strzeliłem gola u siebie, ale nie wystarczyło to do wygrania meczu, ha ha. Uwaga: Wspomniałem o wielu zastrzeżeniach dotyczących sposobu pobierania próbek, a ankieter powiedział mi, żebym zignorował je wszystkie.