Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny

3
Czy ontologie i sieć semantyczna są martwe? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 3 lata temu . Czy sieć semantyczna nie żyje? Czy ontologie są martwe? Opracowuję plan pracy dla mojej pracy …


2
Wzmocnienie skrótu wrażliwego na lokalizację
Usiłuję zbudować skrót cosinus wrażliwy na lokalizację, aby znaleźć potencjalne pary podobnych przedmiotów bez konieczności porównywania każdej możliwej pary. Mam to w zasadzie działające, ale większość par w moich danych wydaje się mieć podobieństwo cosinus w zakresie od -0,2 do +0,2, więc staram się pokroić w kostkę dość dokładnie i …

2
Stochastyczne opadanie gradientu w oparciu o operacje wektorowe?
Załóżmy, że chcę trenować algorytm regresji spadku gradientu stochastycznego przy użyciu zestawu danych zawierającego N próbek. Ponieważ rozmiar zestawu danych jest ustalony, ponownie użyję danych T razy. Przy każdej iteracji lub „epoce” używam każdej próbki treningowej dokładnie raz po losowym uporządkowaniu całego zestawu treningowego. Moja implementacja oparta jest na Pythonie …

2
Ile czasu zajmuje klasyfikator scikit na klasyfikację?
Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …


3
Klasyczne zestawy danych do analizy sieci
Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to: Zestaw danych kwiatu tęczówki ; Zestaw danych Titanic ; Samochody trendów samochodowych ; itp. Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania …
10 dataset  graphs 

2
Walidacja krzyżowa: K-krotnie vs powtarzane losowe podpróbkowanie
Zastanawiam się, jaki rodzaj walidacji krzyżowej modelu wybrać dla problemu klasyfikacji: K-fold lub losowe podpróbkowanie (próbkowanie bootstrap)? Moje najlepsze przypuszczenie to użycie 2/3 zbioru danych (około ~ 1000 pozycji) do treningu i 1/3 do walidacji. W tym przypadku K-fold daje tylko trzy iteracje (fałdy), co nie wystarczy, aby zobaczyć stabilny …

4
Jak debugować analizę danych?
Natknąłem się na następujący problem, który uznaję za raczej typowy. Mam kilka dużych danych, powiedzmy, kilka milionów wierszy. Przeprowadzam na nim kilka nietrywialnych analiz, np. Zapytanie SQL składające się z kilku pod-zapytań. Otrzymuję pewien wynik, stwierdzając na przykład, że właściwość X rośnie z czasem. Są dwie możliwe rzeczy, które mogą …

2
Debugowanie sieci neuronowych
Zbudowałem sztuczną sieć neuronową w Pythonie za pomocą funkcji optymalizacji scipy.optimize.minimize (gradient sprzężony). Wdrożyłem sprawdzanie gradientu, podwójnie sprawdziłem wszystko itp. Jestem pewien, że działa poprawnie. Uruchomiłem go kilka razy i osiąga on „Optymalizacja zakończona pomyślnie”, ale kiedy zwiększę liczbę ukrytych warstw, koszt hipotezy wzrasta (wszystko inne pozostaje takie samo) po …

1
Jak należy postępować z niejawnymi danymi w zaleceniu
System rekomendacji prowadzi dziennik tego, jakie rekomendacje zostały wydane konkretnemu użytkownikowi i czy ten użytkownik je przyjmuje. To jest jak user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 gdzie 1 oznacza, że ​​użytkownik zaakceptował zalecenie, a -1 oznacza, że ​​użytkownik nie odpowiedział na …

1
Grupowanie danych klientów przechowywanych w ElasticSearch
Mam kilka profili klientów przechowywanych w wyszukiwanie elastycznegrupa. Profile te są teraz używane do tworzenia grup docelowych dla naszych subskrypcji e-mail. Grupy docelowe są teraz tworzone ręcznie przy użyciu elastycznych funkcji wyszukiwania fasetowego (np. Zbierz wszystkich mężczyzn w wieku 23 lat z jednym samochodem i 3 dziećmi). Jak mogę szukać …

5
Jak stworzyć dobrą listę haseł
Szukam wskazówek, jak stworzyć listę haseł. Czy ktoś wie / czy ktoś może zalecić dobrą metodę wyodrębnienia list słów-słów z samego zbioru danych w celu wstępnego przetwarzania i filtrowania? Dane: ogromna ilość tekstu ludzkiego o zmiennej długości (wyszukiwarki i całe zdania (do 200 znaków)) przez kilka lat. Tekst zawiera dużo …


2
Czy normalizacja partii oznacza, że ​​sigmoidy działają lepiej niż ReLU?
Normalizacja partii i ReLU są rozwiązaniami problemu znikającego gradientu. Jeśli używamy normalizacji wsadowej, czy powinniśmy używać sigmoidów? A może istnieją funkcje ReLU, które sprawiają, że są one opłacalne nawet podczas korzystania z batchnorm? Przypuszczam, że normalizacja przeprowadzona w trybie wsadowym wyśle ​​zero aktywacji ujemnych. Czy to oznacza, że ​​batchnorm rozwiązuje …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.