Nauka danych

1

RNN przy użyciu wielu szeregów czasowych

Próbuję utworzyć sieć neuronową, używając szeregów czasowych jako danych wejściowych, aby trenować ją w oparciu o typ każdej serii. Czytałem, że używając RNN możesz podzielić dane wejściowe na partie i wykorzystać każdy punkt szeregu czasowego na poszczególne neurony i ostatecznie wyszkolić sieć. Staram się jednak używać wielu szeregów czasowych jako …

14 time-series rnn

1

Jak poradzić sobie z zerowym współczynnikiem w obliczeniach Naive Bayes Classifier?

Jeśli mam zestaw danych treningowych i trenuję na nim klasyfikator Naive Bayes i mam wartość atrybutu, która ma prawdopodobieństwo zerowe. Jak sobie z tym poradzić, jeśli chcę później przewidzieć klasyfikację nowych danych? Problem polega na tym, że jeśli w obliczeniach jest zero, cały produkt staje się zerowy, bez względu na …

14 classification naive-bayes-classifier

1

Mapa termiczna na mapie w Pythonie

Mode Analytics ma fajną funkcję mapy cieplnej ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Ale nie sprzyja to porównywaniu map (tylko jedna na raport). Pozwalają na łatwe pobieranie danych do zapakowanego notatnika Pythona. A następnie dowolny obraz w pythonie można łatwo dodać do raportu. Moje pytanie brzmi: jak odtworzyć mapę termiczną na rzeczywistej mapie …

14 python visualization geospatial

5

Czy współczesne biblioteki R i / lub Python powodują, że SQL staje się przestarzały?

Pracuję w biurze, w którym SQL Server jest podstawą wszystkiego, co robimy, od przetwarzania danych przez czyszczenie po mung. Mój kolega specjalizuje się w pisaniu złożonych funkcji i procedur przechowywanych w celu metodycznego przetwarzania przychodzących danych, aby można je było znormalizować i uruchomić w raportach, wizualizacjach i projektach analitycznych. Przed …

14 python r data-cleaning data sql

1

Propagacja wsteczna poprzez maksymalne warstwy pulujące

Mam małe pytanie cząstkowe do tego pytania . Rozumiem, że podczas wstecznej propagacji przez warstwę maksymalnej puli gradient jest kierowany z powrotem w taki sposób, że neuron w poprzedniej warstwie, która została wybrana jako maksymalna, otrzymuje cały gradient. Nie jestem w 100% pewien, w jaki sposób gradient w następnej warstwie …

14 machine-learning neural-network convnet backpropagation

3

Doc2vec (gensim) - Jak wywnioskować etykietę zdań niewidocznych?

https://radimrehurek.com/gensim/models/doc2vec.html Na przykład, jeśli przeszkoliliśmy doc2vec „aaaaaAAAAAaaaaaa” - „etykieta 1” „BbbbbbBBBBBbbbb” - „etykieta 2” czy możemy wywnioskować, że „aaaaAAAAaaaaAA” oznacza etykietę 1 za pomocą Doc2vec? Wiem, że Doc2vec może trenować wektory słów i wektory etykiet. Korzystając z tych wektorów, czy możemy wnioskować o niewidocznych zdaniach (kombinacji wyuczonych słów), w której …

14 gensim

1

Jaka jest różnica między (dynamiczną) siecią Bayesa a HMM?

Czytałem, że HMM, filtry cząstek i filtry Kalmana są szczególnymi przypadkami dynamicznych sieci Bayesa. Jednak znam tylko HMM i nie widzę różnicy w stosunku do dynamicznych sieci Bayesa. Czy ktoś mógłby wyjaśnić? Byłoby miło, gdyby Twoja odpowiedź była podobna do następującej, ale w przypadku bayes Networks: Ukryte modele Markowa Ukryty …

14 bayesian-networks pgm

3

Czy w przypadku niezrównoważonej klasy muszę korzystać z próbkowania w moich zestawach danych do sprawdzania poprawności / testowania?

Jestem początkującym w uczeniu maszynowym i mam do czynienia z sytuacją. Pracuję nad problemem określania stawek w czasie rzeczywistym z zestawem danych IPinYou i próbuję przewidzieć kliknięcie. Chodzi o to, że, jak być może wiesz, zestaw danych jest bardzo niezrównoważony: około 1300 negatywnych przykładów (bez kliknięcia) na 1 pozytywny przykład …

14 machine-learning dataset sampling

2

Dane wielowymiarowe: jakie przydatne techniki należy znać?

Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład, Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach …

14 machine-learning statistics dimensionality-reduction

2

Analiza wyników testu A / B, które nie są normalnie rozłożone, przy użyciu niezależnego testu t

Mam zestaw wyników testu A / B (jedna grupa kontrolna, jedna grupa cech), które nie pasują do rozkładu normalnego. W rzeczywistości rozkład bardziej przypomina rozkład Landaua. Uważam, że niezależny test t wymaga, aby próbki były co najmniej w przybliżeniu normalnie rozmieszczone, co zniechęca mnie do używania testu t jako ważnej …

14 dataset statistics ab-test

3

Kiedy wartości p są zwodnicze?

Na jakie warunki danych należy zwrócić uwagę, w przypadku których wartości p mogą nie być najlepszym sposobem decydowania o istotności statystycznej? Czy istnieją konkretne typy problemów, które należą do tej kategorii?

14 bigdata statistics

3

Zmiana rozmiaru obrazu i wypełnienie dla CNN

Chcę trenować CNN w zakresie rozpoznawania obrazów. Obrazy do treningu nie mają ustalonego rozmiaru. Chcę na przykład, aby rozmiar wejściowy dla CNN wynosił 50 x 100 (wysokość x szerokość). Kiedy zmieniam rozmiar niewielkich obrazów (na przykład 32x32) do rozmiaru wejściowego, zawartość obrazu jest zbyt mocno rozciągana w poziomie, ale w …

14 machine-learning image-classification preprocessing image-recognition

1

Drzewa decyzyjne: liść drzewa (najlepiej pierwszy) i poziom drzewa

Problem 1: Jestem zdezorientowany opisem LightGBM dotyczącym sposobu, w jaki drzewo jest rozwijane. Stanowią one: Większość algorytmów uczenia się drzew decyzyjnych rośnie według poziomów (głębokości), jak na poniższym obrazku: Pytania 1 : Jakie „większość” algorytmów stosuje się w ten sposób? O ile wiem C4.5 i CART używają DFS. XGBoost używa …

14 decision-trees xgboost

3

Po co zawracać sobie głowę, jeśli Max Pooling i tak po prostu przeskaluje obraz?

Pomysł zastosowania filtrów w celu zidentyfikowania krawędzi jest całkiem fajnym pomysłem. Na przykład możesz zrobić zdjęcie 7. Z niektórymi filtrami możesz uzyskać przekształcone obrazy, które podkreślają różne cechy oryginalnego obrazu. Oryginalny 7: może być postrzegany przez sieć jako: Zauważ, jak każdy obraz wyodrębnił inną krawędź oryginału 7. To wszystko świetnie, …

14 neural-network

4

Jak zainicjować nowy model word2vec przy pomocy wstępnie wyuczonych wag modelu?

Korzystam z biblioteki Gensim w Pythonie do używania i szkolenia modelu word2vector. Ostatnio zastanawiałem się nad zainicjowaniem wag modelu za pomocą wstępnie wyszkolonego modelu word2vec, takiego jak (model wstępnie przeszkolony GoogleNewDataset). Walczyłem z tym od kilku tygodni. Teraz właśnie sprawdziłem, że w gesim jest funkcja, która może mi pomóc zainicjować …

14 python nlp word-embeddings word2vec gensim