Nauka danych data-mining

3

Czy są jakieś dobre gotowe modele językowe dla Pythona?

Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

Ile danych jest wystarczających do wyszkolenia mojego modelu uczenia maszynowego?

Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …

11 machine-learning data-mining dataset data-cleaning data

4

Jak uniknąć przeuczenia w losowym lesie?

Chcę uniknąć przeuczenia w losowym lesie. W związku z tym zamierzam użyć mtry, węzłów i maksymalnych węzłów itp. Czy możesz mi pomóc w wyborze wartości dla tych parametrów? Używam R. Ponadto, jeśli to możliwe, proszę powiedz mi, jak mogę użyć k-krotnego sprawdzania poprawności dla losowego lasu (w R).

11 machine-learning data-mining r predictive-modeling random-forest

7

Pozyskiwanie danych z LinkedIn

Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …

11 data-mining social-network-analysis crawling scraping

3

Związek między KS, AUROC i Gini

Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale …

11 data-mining statistics predictive-modeling accuracy

4

Praca z klastrami HPC

Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za bardzo frustrujący. Zwykle dzieje się tak, że piszę …

11 bigdata data-mining

3

Najlepsze języki do obliczeń naukowych [zamknięte]

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Wizualizacja przedmiotów często kupowanych razem

Mam zestaw danych w następującej strukturze wstawiony do pliku CSV: Banana Water Rice Rice Water Bread Banana Juice Każdy wiersz wskazuje kolekcję przedmiotów, które zostały zakupione razem. Na przykład, pierwszy wiersz oznacza, że przedmioty Banana, Wateri Ricezostały zakupione razem. Chcę utworzyć wizualizację, jak poniżej: Jest to w zasadzie wykres siatki, …

10 python r data-mining visualization association-rules

3

Co jest szybsze: PostgreSQL vs MongoDB na dużych zestawach danych JSON?

Mam duży zestaw danych z 9-metrowymi obiektami JSON o wielkości ~ 300 bajtów każdy. Są to posty z agregatora linków: w zasadzie linki (adres URL, tytuł i identyfikator autora) oraz komentarze (tekst i identyfikator autora) + metadane. Mogą to być rekordy relacyjne w tabeli, z wyjątkiem tego, że mają jedno …

10 data-mining bigdata databases sql mongodb

4

Jak zeskrobać stronę IMDB?

Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …

10 data-mining python scraping

2

Skalowalne wykrywanie wartości odstających / anomalii

Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …

10 data-mining bigdata algorithms outlier

4

Dlaczego kilka rodzajów modeli może dawać prawie identyczne wyniki?

Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych. Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ …

10 data-mining classification binary

4

Jakie pierwsze kroki powinienem zastosować, aby zrozumieć duże zestawy danych i jakich narzędzi powinienem użyć?

Zastrzeżenie: Jestem kompletnym początkującym, jeśli chodzi o uczenie maszynowe, ale chętnie się uczę. Mam duży zestaw danych i próbuję znaleźć w nim wzorzec. Może istnieć / może nie istnieć korelacja między danymi, albo ze znanymi zmiennymi, albo zmiennymi zawartymi w danych, ale których jeszcze nie zdawałem sobie sprawy, że są …

10 machine-learning data-mining tools beginner

1

Dostępne pozytywne produkty użytkownika (dane kliknięcia). Jak wygenerować negatywne (dane bez kliknięcia)?

Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć. Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak wprowadzać w błąd. Przykład: user1, product1 (click) user2, product2 (click) …

10 machine-learning data-mining

1

Jak obliczyć wartość delta dla warstwy konwergentnej, biorąc pod uwagę warunki delta i wagi poprzedniej warstwy konwergentnej?

Próbuję trenować sztuczną sieć neuronową z dwiema warstwami splotowymi (c1, c2) i dwiema warstwami ukrytymi (c1, c2). Używam standardowego podejścia do propagacji wstecznej. W przejściu wstecznym obliczam wartość błędu warstwy (delta) na podstawie błędu poprzedniej warstwy, wag poprzedniej warstwy i gradientu aktywacji w odniesieniu do funkcji aktywacji bieżącej warstwy. Mówiąc …

10 machine-learning data-mining neural-network deep-learning

Pytania otagowane jako data-mining