Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 3 lata temu . Czy sieć semantyczna nie żyje? Czy ontologie są martwe? Opracowuję plan pracy dla mojej pracy …
Nasz zestaw danych w tym tygodniu ma 14 atrybutów, a każda kolumna ma bardzo różne wartości. Jedna kolumna ma wartości poniżej 1, a druga kolumna ma wartości od trzech do czterech pełnych cyfr. Nauczyliśmy się normalizacji w zeszłym tygodniu i wydaje się, że powinieneś normalizować dane, gdy mają one bardzo …
Usiłuję zbudować skrót cosinus wrażliwy na lokalizację, aby znaleźć potencjalne pary podobnych przedmiotów bez konieczności porównywania każdej możliwej pary. Mam to w zasadzie działające, ale większość par w moich danych wydaje się mieć podobieństwo cosinus w zakresie od -0,2 do +0,2, więc staram się pokroić w kostkę dość dokładnie i …
Załóżmy, że chcę trenować algorytm regresji spadku gradientu stochastycznego przy użyciu zestawu danych zawierającego N próbek. Ponieważ rozmiar zestawu danych jest ustalony, ponownie użyję danych T razy. Przy każdej iteracji lub „epoce” używam każdej próbki treningowej dokładnie raz po losowym uporządkowaniu całego zestawu treningowego. Moja implementacja oparta jest na Pythonie …
Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …
Pracuję nad kampanią polityczną, w której dziesiątki wolontariuszy będą prowadzić promocje pukania do drzwi w ciągu najbliższych tygodni. Biorąc pod uwagę listę z nazwami, adresami i długimi / prostymi współrzędnymi, jakich algorytmów można użyć do stworzenia zoptymalizowanej listy ścieżek.
Istnieje kilka klasycznych zestawów danych do zadań klasyfikacji / regresji uczenia maszynowego. Najpopularniejsze to: Zestaw danych kwiatu tęczówki ; Zestaw danych Titanic ; Samochody trendów samochodowych ; itp. Ale czy ktoś zna podobne zbiory danych do analizy sieci / teorii grafów? Bardziej konkretnie - szukam złotych zestawów danych do porównywania …
Zastanawiam się, jaki rodzaj walidacji krzyżowej modelu wybrać dla problemu klasyfikacji: K-fold lub losowe podpróbkowanie (próbkowanie bootstrap)? Moje najlepsze przypuszczenie to użycie 2/3 zbioru danych (około ~ 1000 pozycji) do treningu i 1/3 do walidacji. W tym przypadku K-fold daje tylko trzy iteracje (fałdy), co nie wystarczy, aby zobaczyć stabilny …
Natknąłem się na następujący problem, który uznaję za raczej typowy. Mam kilka dużych danych, powiedzmy, kilka milionów wierszy. Przeprowadzam na nim kilka nietrywialnych analiz, np. Zapytanie SQL składające się z kilku pod-zapytań. Otrzymuję pewien wynik, stwierdzając na przykład, że właściwość X rośnie z czasem. Są dwie możliwe rzeczy, które mogą …
Zbudowałem sztuczną sieć neuronową w Pythonie za pomocą funkcji optymalizacji scipy.optimize.minimize (gradient sprzężony). Wdrożyłem sprawdzanie gradientu, podwójnie sprawdziłem wszystko itp. Jestem pewien, że działa poprawnie. Uruchomiłem go kilka razy i osiąga on „Optymalizacja zakończona pomyślnie”, ale kiedy zwiększę liczbę ukrytych warstw, koszt hipotezy wzrasta (wszystko inne pozostaje takie samo) po …
System rekomendacji prowadzi dziennik tego, jakie rekomendacje zostały wydane konkretnemu użytkownikowi i czy ten użytkownik je przyjmuje. To jest jak user_id item_id result 1 4 1 1 7 -1 5 19 1 5 80 1 gdzie 1 oznacza, że użytkownik zaakceptował zalecenie, a -1 oznacza, że użytkownik nie odpowiedział na …
Mam kilka profili klientów przechowywanych w wyszukiwanie elastycznegrupa. Profile te są teraz używane do tworzenia grup docelowych dla naszych subskrypcji e-mail. Grupy docelowe są teraz tworzone ręcznie przy użyciu elastycznych funkcji wyszukiwania fasetowego (np. Zbierz wszystkich mężczyzn w wieku 23 lat z jednym samochodem i 3 dziećmi). Jak mogę szukać …
Szukam wskazówek, jak stworzyć listę haseł. Czy ktoś wie / czy ktoś może zalecić dobrą metodę wyodrębnienia list słów-słów z samego zbioru danych w celu wstępnego przetwarzania i filtrowania? Dane: ogromna ilość tekstu ludzkiego o zmiennej długości (wyszukiwarki i całe zdania (do 200 znaków)) przez kilka lat. Tekst zawiera dużo …
Sprawdzam dokumentację XGBoost i stwierdziłem, że XGBoost jest zoptymalizowaną biblioteką rozproszonego zwiększania gradientu. Co należy rozumieć przez rozproszony? Miłego dnia
Normalizacja partii i ReLU są rozwiązaniami problemu znikającego gradientu. Jeśli używamy normalizacji wsadowej, czy powinniśmy używać sigmoidów? A może istnieją funkcje ReLU, które sprawiają, że są one opłacalne nawet podczas korzystania z batchnorm? Przypuszczam, że normalizacja przeprowadzona w trybie wsadowym wyśle zero aktywacji ujemnych. Czy to oznacza, że batchnorm rozwiązuje …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.