Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych


10
Jakie są najbardziej przydatne źródła danych ekonomicznych?
Podczas prowadzenia badań w dziedzinie ekonomii często trzeba zweryfikować teoretyczne wnioski dotyczące rzeczywistych danych. Jakie są wiarygodne źródła danych, z których można korzystać i które można cytować? Interesują mnie głównie źródła, które dostarczają różnych danych statystycznych, takich jak PKB, populacja, CPI, PPI itp. EDYCJA: Oto agregacja linków pojawiających się w …
37 references 

5
Jak wizualizować / zrozumieć, co robi sieć neuronowa?
Sieci neuronowe są często traktowane jako „czarne skrzynki” ze względu na ich złożoną strukturę. Nie jest to idealne, ponieważ często korzystne jest intuicyjne zrozumienie, w jaki sposób model działa wewnętrznie. Jakie są metody wizualizacji działania wyszkolonej sieci neuronowej? Alternatywnie, w jaki sposób możemy wyodrębnić łatwo przyswajalne opisy sieci (np. Ten …

3
Intuicyjne wyjaśnienie gęstości transformowanej zmiennej?
Załóżmy, że jest zmienną losową z pdf . Zatem zmienna losowa ma pdfXXXfX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Rozumiem rachunek za tym. Ale próbuję wymyślić sposób, aby wyjaśnić to komuś, kto nie zna rachunku różniczkowego. W szczególności próbuję wyjaśnić, dlaczego czynnik pojawia się z …

2
Nierówności prawdopodobieństwa
Szukam pewnych nierówności prawdopodobieństwa dla sum niezwiązanych zmiennych losowych. Byłbym bardzo wdzięczny, gdyby ktokolwiek mógł mi coś przekazać. Moim problemem jest znalezienie wykładniczej górnej granicy ponad prawdopodobieństwem, że suma niezwiązanych zmiennych losowych iid, które są w rzeczywistości pomnożeniem dwóch iidów Gaussa, przekracza pewną określoną wartość, tj. Pr[X≥ϵσ2N]≤exp(?)Pr[X≥ϵσ2N]≤exp⁡(?)\mathrm{Pr}[ X \geq \epsilon\sigma^2 …

3
Zastosowanie metod uczenia maszynowego w witrynach StackExchange
W tym semestrze mam kurs uczenia maszynowego, a profesor poprosił nas o znalezienie problemu w świecie rzeczywistym i rozwiązanie go jedną z metod uczenia maszynowego przedstawionych na zajęciach, takich jak: Drzewa decyzyjne Sztuczne sieci neuronowe Obsługa maszyn wektorowych Nauczanie oparte na instancjach ( kNN , LWL ) Bayesian Networks Uczenie …





7
Czy do wnioskowania przyczynowego można zastosować walidację krzyżową?
We wszystkich kontekstach znam walidację krzyżową, która jest stosowana wyłącznie w celu zwiększenia dokładności predykcyjnej. Czy można rozszerzyć logikę walidacji krzyżowej przy szacowaniu obiektywnych związków między zmiennymi? Podczas gdy ten artykuł Richarda Berka demonstruje użycie trzymanej próbki do wyboru parametrów w „regresyjnym” modelu regresji (i pokazuje, dlaczego stopniowy wybór parametrów …


11
Podręczniki statystyczne Open Source?
Pojawiło się kilka pytań dotyczących podręczników statystycznych , takich jak pytanie Bezpłatne podręczniki statystyczne . Jednak szukam podręczników o otwartym kodzie źródłowym, na przykład posiadających licencję Creative Commons . Powodem jest to, że w materiałach kursowych w innych domenach nadal chcesz zamieścić tekst o podstawowych statystykach. W takim przypadku byłoby …

3
SVM, Nadmierne dopasowanie, przekleństwo wymiarowości
Mój zestaw danych jest niewielki (120 próbek), jednak liczba funkcji jest duża i waha się od (1000-200 000). Chociaż dokonuję wyboru funkcji, aby wybrać podzbiór funkcji, może się ona nadal nadpisywać. Moje pierwsze pytanie brzmi: w jaki sposób SVM radzi sobie z nadmiernym dopasowaniem, jeśli w ogóle. Po drugie, kiedy …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.