Działanie, które poszukuje wzorców w dużych, złożonych zestawach danych. Zazwyczaj kładzie nacisk na techniki algorytmiczne, ale może również obejmować dowolny zestaw powiązanych umiejętności, aplikacji lub metodologii z tym celem.
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …
Chcę uniknąć przeuczenia w losowym lesie. W związku z tym zamierzam użyć mtry, węzłów i maksymalnych węzłów itp. Czy możesz mi pomóc w wyborze wartości dla tych parametrów? Używam R. Ponadto, jeśli to możliwe, proszę powiedz mi, jak mogę użyć k-krotnego sprawdzania poprawności dla losowego lasu (w R).
Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …
Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale …
Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za bardzo frustrujący. Zwykle dzieje się tak, że piszę …
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
Mam zestaw danych w następującej strukturze wstawiony do pliku CSV: Banana Water Rice Rice Water Bread Banana Juice Każdy wiersz wskazuje kolekcję przedmiotów, które zostały zakupione razem. Na przykład, pierwszy wiersz oznacza, że przedmioty Banana, Wateri Ricezostały zakupione razem. Chcę utworzyć wizualizację, jak poniżej: Jest to w zasadzie wykres siatki, …
Mam duży zestaw danych z 9-metrowymi obiektami JSON o wielkości ~ 300 bajtów każdy. Są to posty z agregatora linków: w zasadzie linki (adres URL, tytuł i identyfikator autora) oraz komentarze (tekst i identyfikator autora) + metadane. Mogą to być rekordy relacyjne w tabeli, z wyjątkiem tego, że mają jedno …
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …
Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …
Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych. Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ …
Zastrzeżenie: Jestem kompletnym początkującym, jeśli chodzi o uczenie maszynowe, ale chętnie się uczę. Mam duży zestaw danych i próbuję znaleźć w nim wzorzec. Może istnieć / może nie istnieć korelacja między danymi, albo ze znanymi zmiennymi, albo zmiennymi zawartymi w danych, ale których jeszcze nie zdawałem sobie sprawy, że są …
Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć. Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak wprowadzać w błąd. Przykład: user1, product1 (click) user2, product2 (click) …
Próbuję trenować sztuczną sieć neuronową z dwiema warstwami splotowymi (c1, c2) i dwiema warstwami ukrytymi (c1, c2). Używam standardowego podejścia do propagacji wstecznej. W przejściu wstecznym obliczam wartość błędu warstwy (delta) na podstawie błędu poprzedniej warstwy, wag poprzedniej warstwy i gradientu aktywacji w odniesieniu do funkcji aktywacji bieżącej warstwy. Mówiąc …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.