Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
Obecnie uczę sieci neuronowej i nie mogę zdecydować, którego użyć, aby wdrożyć moje kryteria wczesnego zatrzymania: utratę walidacji lub mierniki takie jak dokładność / f1score / auc / cokolwiek obliczone na zestawie walidacyjnym. W swoich badaniach natknąłem się na artykuły broniące obu punktów widzenia. Wygląda na to, że Keras domyślnie …
Mam problem z klasyfikacją zarówno danych kategorycznych, jak i liczbowych. Problem, z którym się zmagam, polega na tym, że moje dane kategoryczne nie są naprawione, co oznacza, że nowy kandydat, którego etykietę chcę przewidzieć, może mieć nową kategorię, która nie była wcześniej obserwowana. Na przykład, jeśli moje dane kategoryczne sexbyłyby …
Mam do czynienia z sytuacją, w której liczba pozytywnych i negatywnych przykładów w zbiorze danych jest niezrównoważona. Moje pytanie brzmi: czy istnieją jakieś praktyczne zasady, które mówią nam, kiedy powinniśmy podpróbować dużą kategorię, aby wymusić pewien rodzaj równoważenia w zbiorze danych. Przykłady: Jeśli liczba pozytywnych przykładów wynosi 1000, a liczba …
Ogólny opis problemu Mam wykres, na którym niektóre wierzchołki są oznaczone typem o 3 lub 4 możliwych wartościach. Dla pozostałych wierzchołków typ jest nieznany. Moim celem jest użycie wykresu do przewidzenia typu wierzchołków, które nie są oznaczone. Możliwe ramy Podejrzewam, że wpisuje się to w ogólne ramy problemów związanych z …
Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych. Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ …
Pracuję nad aplikacją, która pomoże ludziom uczyć się angielskiego jako drugiego języka. Zweryfikowałem, że zdania pomagają w nauce języka, zapewniając dodatkowy kontekst. Zrobiłem to, przeprowadzając małe badanie w klasie 60 uczniów. Wydobrałem z Wikipedii ponad sto tysięcy zdań na różne angielskie słowa (w tym 800 słów Barronsa i 1000 najczęstszych …
Mam zestaw danych obejmujący zestaw klientów w różnych miastach Kalifornii, czas dzwonienia dla każdego klienta oraz status połączenia (Prawda, jeśli klient odbierze połączenie i False, jeśli klient nie odbierze). Muszę znaleźć odpowiedni czas na dzwonienie do przyszłych klientów, aby prawdopodobieństwo odebrania połączenia było wysokie. Jaka jest najlepsza strategia dla tego …
Planuję użyć klasyfikatora SVM (Scikit Line Support Vector Machine) do klasyfikacji tekstu na korpusie składającym się z 1 miliona oznakowanych dokumentów. Planuję zrobić, gdy użytkownik wpisze jakieś słowo kluczowe, klasyfikator najpierw sklasyfikuje je w kategorii, a następnie w dokumentach tej kategorii nastąpi kolejne zapytanie o wyszukiwanie informacji. Mam parę pytań: …
Pracuję nad klasyfikacją tekstu, w której mam 39 kategorii / klas i 8,5 miliona rekordów. (W przyszłości dane i kategorie wzrosną). Struktura lub format moich danych jest następująca. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary …
Załóżmy, że interesują mnie trzy klasy , , . Ale mój zestaw danych zawiera jeszcze kilka prawdziwych klas .c1c1c_1c2c2c_2c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n Oczywistą odpowiedzią jest zdefiniowanie nowej klasy która odnosi się do wszystkich klas , ale podejrzewam, że nie jest to dobry pomysł, ponieważ próbki w będą rzadkie i niezbyt do siebie podobne.c^4c^4\hat …
Mam zestaw danych złożony z szeregów czasowych (8 punktów) o około 40 wymiarach (więc każdy szereg czasowy to 8 na 40). Odpowiedni wynik (możliwe wyniki dla kategorii) to eitheir 0 lub 1. Jakie byłoby najlepsze podejście do zaprojektowania klasyfikatora dla szeregów czasowych o wielu wymiarach? Moja początkowa strategia polegała na …
Mój zestaw danych składa się z sekwencji wektorowych. Każdy wektor ma 50 rzeczywistych wymiarów. Liczba wektorów w sekwencji wynosi od 3-5 do 10-15. Innymi słowy, długość sekwencji nie jest stała. Pewna spora liczba sekwencji (nie wektorów!) Jest opatrzona etykietą klasy. Moim zadaniem jest nauczyć się klasyfikatora, który ma sekwencję wektorów, …
Problem Próbowałem używać naiwnych bayes na oznaczonym zbiorze danych dotyczących przestępczości, ale otrzymałem naprawdę słabe wyniki (7% dokładności). Naiwne Bayes działa znacznie szybciej niż inne alogorytmy, których używałem, więc chciałem spróbować dowiedzieć się, dlaczego wynik był tak niski. Badania Po przeczytaniu odkryłem, że bayes Naive powinien być używany ze zbalansowanymi …
Jakich swobodnie dostępnych zestawów danych mogę użyć do szkolenia klasyfikatora tekstu? Staramy się zwiększyć zaangażowanie użytkowników, polecając mu najbardziej powiązane treści, więc pomyśleliśmy, że jeśli sklasyfikujemy nasze treści w oparciu o predefiniowany zestaw słów, możemy polecić mu angażujące treści, uzyskując jego opinie na temat losowej liczby postów już sklasyfikowanych przed. …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.