Nauka danych

3

Czy ontologie i sieć semantyczna są martwe? [Zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 3 lata temu . Czy sieć semantyczna nie żyje? Czy ontologie są martwe? Opracowuję plan pracy dla mojej pracy …

10 knowledge-base

1

Czy musisz znormalizować dane podczas budowania drzew decyzyjnych przy użyciu R?

Nasz zestaw danych w tym tygodniu ma 14 atrybutów, a każda kolumna ma bardzo różne wartości. Jedna kolumna ma wartości poniżej 1, a druga kolumna ma wartości od trzech do czterech pełnych cyfr. Nauczyliśmy się normalizacji w zeszłym tygodniu i wydaje się, że powinieneś normalizować dane, gdy mają one bardzo …

10 r beginner

2

Wzmocnienie skrótu wrażliwego na lokalizację

Usiłuję zbudować skrót cosinus wrażliwy na lokalizację, aby znaleźć potencjalne pary podobnych przedmiotów bez konieczności porównywania każdej możliwej pary. Mam to w zasadzie działające, ale większość par w moich danych wydaje się mieć podobieństwo cosinus w zakresie od -0,2 do +0,2, więc staram się pokroić w kostkę dość dokładnie i …

10 machine-learning

2

Stochastyczne opadanie gradientu w oparciu o operacje wektorowe?

Załóżmy, że chcę trenować algorytm regresji spadku gradientu stochastycznego przy użyciu zestawu danych zawierającego N próbek. Ponieważ rozmiar zestawu danych jest ustalony, ponownie użyję danych T razy. Przy każdej iteracji lub „epoce” używam każdej próbki treningowej dokładnie raz po losowym uporządkowaniu całego zestawu treningowego. Moja implementacja oparta jest na Pythonie …

10 python gradient-descent regression

2

Ile czasu zajmuje klasyfikator scikit na klasyfikację?

Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …

10 machine-learning classification python scikit-learn

4

Jak stworzyć zoptymalizowaną listę marszów, biorąc pod uwagę współrzędne długości i szerokości geograficznej?

Pracuję nad kampanią polityczną, w której dziesiątki wolontariuszy będą prowadzić promocje pukania do drzwi w ciągu najbliższych tygodni. Biorąc pod uwagę listę z nazwami, adresami i długimi / prostymi współrzędnymi, jakich algorytmów można użyć do stworzenia zoptymalizowanej listy ścieżek.

10 algorithms

3

Klasyczne zestawy danych do analizy sieci

Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to: Zestaw danych kwiatu tęczówki ; Zestaw danych Titanic ; Samochody trendów samochodowych ; itp. Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania …

10 dataset graphs

2

Walidacja krzyżowa: K-krotnie vs powtarzane losowe podpróbkowanie

Zastanawiam się, jaki rodzaj walidacji krzyżowej modelu wybrać dla problemu klasyfikacji: K-fold lub losowe podpróbkowanie (próbkowanie bootstrap)? Moje najlepsze przypuszczenie to użycie 2/3 zbioru danych (około ~ 1000 pozycji) do treningu i 1/3 do walidacji. W tym przypadku K-fold daje tylko trzy iteracje (fałdy), co nie wystarczy, aby zobaczyć stabilny …

10 cross-validation sampling

4

Jak debugować analizę danych?

Natknąłem się na następujący problem, który uznaję za raczej typowy. Mam kilka dużych danych, powiedzmy, kilka milionów wierszy. Przeprowadzam na nim kilka nietrywialnych analiz, np. Zapytanie SQL składające się z kilku pod-zapytań. Otrzymuję pewien wynik, stwierdzając na przykład, że właściwość X rośnie z czasem. Są dwie możliwe rzeczy, które mogą …

10 data-mining sql experiments

2

Debugowanie sieci neuronowych

Zbudowałem sztuczną sieć neuronową w Pythonie za pomocą funkcji optymalizacji scipy.optimize.minimize (gradient sprzężony). Wdrożyłem sprawdzanie gradientu, podwójnie sprawdziłem wszystko itp. Jestem pewien, że działa poprawnie. Uruchomiłem go kilka razy i osiąga on „Optymalizacja zakończona pomyślnie”, ale kiedy zwiększę liczbę ukrytych warstw, koszt hipotezy wzrasta (wszystko inne pozostaje takie samo) po …

10 machine-learning python neural-network

1

Jak należy postępować z niejawnymi danymi w zaleceniu

System rekomendacji prowadzi dziennik tego, jakie rekomendacje zostały wydane konkretnemu użytkownikowi i czy ten użytkownik je przyjmuje. To jest jak user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 gdzie 1 oznacza, że użytkownik zaakceptował zalecenie, a -1 oznacza, że użytkownik nie odpowiedział na …

10 recommender-system

1

Grupowanie danych klientów przechowywanych w ElasticSearch

Mam kilka profili klientów przechowywanych w wyszukiwanie elastycznegrupa. Profile te są teraz używane do tworzenia grup docelowych dla naszych subskrypcji e-mail. Grupy docelowe są teraz tworzone ręcznie przy użyciu elastycznych funkcji wyszukiwania fasetowego (np. Zbierz wszystkich mężczyzn w wieku 23 lat z jednym samochodem i 3 dziećmi). Jak mogę szukać …

10 data-mining clustering

5

Jak stworzyć dobrą listę haseł

Szukam wskazówek, jak stworzyć listę haseł. Czy ktoś wie / czy ktoś może zalecić dobrą metodę wyodrębnienia list słów-słów z samego zbioru danych w celu wstępnego przetwarzania i filtrowania? Dane: ogromna ilość tekstu ludzkiego o zmiennej długości (wyszukiwarki i całe zdania (do 200 znaków)) przez kilka lat. Tekst zawiera dużo …

9 data-mining nlp information-retrieval language-model

1

Co rozumie się przez Distributed dla biblioteki zwiększającej gradient?

Sprawdzam dokumentację XGBoost i stwierdziłem, że XGBoost jest zoptymalizowaną biblioteką rozproszonego zwiększania gradientu. Co należy rozumieć przez rozproszony? Miłego dnia

9 xgboost distributed boosting

2

Czy normalizacja partii oznacza, że sigmoidy działają lepiej niż ReLU?

Normalizacja partii i ReLU są rozwiązaniami problemu znikającego gradientu. Jeśli używamy normalizacji wsadowej, czy powinniśmy używać sigmoidów? A może istnieją funkcje ReLU, które sprawiają, że są one opłacalne nawet podczas korzystania z batchnorm? Przypuszczam, że normalizacja przeprowadzona w trybie wsadowym wyśle zero aktywacji ujemnych. Czy to oznacza, że batchnorm rozwiązuje …

9 deep-learning batch-normalization