Pytania otagowane jako data-mining

Działanie, które poszukuje wzorców w dużych, złożonych zestawach danych. Zazwyczaj kładzie nacisk na techniki algorytmiczne, ale może również obejmować dowolny zestaw powiązanych umiejętności, aplikacji lub metodologii z tym celem.

3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Ile danych jest wystarczających do wyszkolenia mojego modelu uczenia maszynowego?
Od dłuższego czasu pracuję nad uczeniem maszynowym i bioinformatyką, a dziś rozmawiałem z kolegą na temat głównych ogólnych kwestii eksploracji danych. Mój kolega (który jest ekspertem w dziedzinie uczenia maszynowego) powiedział, że jego zdaniem najważniejszym praktycznym aspektem uczenia maszynowego jest, jak zrozumieć, czy zebrałeś wystarczającą ilość danych, aby wyszkolić swój …


7
Pozyskiwanie danych z LinkedIn
Niedawno odkryłem nowy pakiet R do łączenia się z interfejsem API LinkedIn. Niestety interfejs API LinkedIn wydaje się dość ograniczony; na przykład można uzyskać tylko podstawowe dane o firmach, które są oddzielone od danych dotyczących osób fizycznych. Chciałbym uzyskać dane o wszystkich pracownikach danej firmy, co można zrobić ręcznie w …

3
Związek między KS, AUROC i Gini
Wspólne statystyki walidacji modelu, takie jak test Kołmogorowa – Smirnowa (KS), AUROC i współczynnik Giniego, są funkcjonalnie powiązane. Moje pytanie dotyczy jednak udowodnienia, w jaki sposób wszystkie są ze sobą powiązane. Jestem ciekawy, czy ktoś może mi pomóc udowodnić te relacje. Nie udało mi się znaleźć niczego w Internecie, ale …

4
Praca z klastrami HPC
Na mojej uczelni mamy klaster obliczeniowy HPC. Używam klastra do szkolenia klasyfikatorów i tak dalej. Zwykle więc, aby wysłać zadanie do klastra (np. Skrypt scikit-learn python), muszę napisać skrypt Bash zawierający (między innymi) polecenie podobne qsub script.py. Uważam jednak ten proces za bardzo frustrujący. Zwykle dzieje się tak, że piszę …

3
Najlepsze języki do obliczeń naukowych [zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby skupiało się tylko na jednym problemie, edytując ten post . Zamknięte 5 lat temu . Wydaje się, że w większości języków dostępna jest pewna liczba naukowych bibliotek komputerowych. Python ma …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
Wizualizacja przedmiotów często kupowanych razem
Mam zestaw danych w następującej strukturze wstawiony do pliku CSV: Banana Water Rice Rice Water Bread Banana Juice Każdy wiersz wskazuje kolekcję przedmiotów, które zostały zakupione razem. Na przykład, pierwszy wiersz oznacza, że przedmioty Banana, Wateri Ricezostały zakupione razem. Chcę utworzyć wizualizację, jak poniżej: Jest to w zasadzie wykres siatki, …


4
Jak zeskrobać stronę IMDB?
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …

2
Skalowalne wykrywanie wartości odstających / anomalii
Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …


4
Jakie pierwsze kroki powinienem zastosować, aby zrozumieć duże zestawy danych i jakich narzędzi powinienem użyć?
Zastrzeżenie: Jestem kompletnym początkującym, jeśli chodzi o uczenie maszynowe, ale chętnie się uczę. Mam duży zestaw danych i próbuję znaleźć w nim wzorzec. Może istnieć / może nie istnieć korelacja między danymi, albo ze znanymi zmiennymi, albo zmiennymi zawartymi w danych, ale których jeszcze nie zdawałem sobie sprawy, że są …

1
Dostępne pozytywne produkty użytkownika (dane kliknięcia). Jak wygenerować negatywne (dane bez kliknięcia)?
Bardzo często w polecającym mamy dane użytkownika, które mają etykietę np. „Kliknięcie”. Aby poznać model, potrzebuję danych dotyczących kliknięć i braku kliknięć. Najprostszym podejściem do generowania jest pobranie par produktów użytkownika, których nie ma w danych kliknięć. Może to jednak wprowadzać w błąd. Przykład: user1, product1 (click) user2, product2 (click) …

1
Jak obliczyć wartość delta dla warstwy konwergentnej, biorąc pod uwagę warunki delta i wagi poprzedniej warstwy konwergentnej?
Próbuję trenować sztuczną sieć neuronową z dwiema warstwami splotowymi (c1, c2) i dwiema warstwami ukrytymi (c1, c2). Używam standardowego podejścia do propagacji wstecznej. W przejściu wstecznym obliczam wartość błędu warstwy (delta) na podstawie błędu poprzedniej warstwy, wag poprzedniej warstwy i gradientu aktywacji w odniesieniu do funkcji aktywacji bieżącej warstwy. Mówiąc …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.