Nauka danych

7

Wizualizacja wykresu z milionem wierzchołków

Jakiego narzędzia najlepiej użyć do wizualizacji (narysowania wierzchołków i krawędzi) wykresu zawierającego 1000000 wierzchołków? Na wykresie jest około 50000 krawędzi. Potrafię obliczyć położenie poszczególnych wierzchołków i krawędzi. Zastanawiam się nad napisaniem programu do generowania pliku svg. Jakieś inne sugestie?

17 visualization graphs

5

Dane w naszym relacyjnym DBMS stają się duże, czy to czas, aby przejść do NoSQL?

Stworzyliśmy aplikację sieci społecznościowej do celów eLearningu. To eksperymentalny projekt, nad którym pracujemy w naszym laboratorium. Przez pewien czas był używany w niektórych studiach przypadków, a dane w naszym relacyjnym DBMS (SQL Server 2008) stają się duże. To już kilka gigabajtów, a tabele są ze sobą ściśle powiązane. Wydajność jest …

17 nosql relational-dbms

5

Wizualne wykrywanie kotów za pomocą detekcji anomalii

Mam projekt hobby, który rozważam jako sposób na zwiększenie mojego dotychczasowego ograniczonego doświadczenia w uczeniu maszynowym. Zrobiłem i ukończyłem Coursera MOOC na ten temat. Moje pytanie dotyczy wykonalności projektu. Zadanie jest następujące: Sąsiednie koty od czasu do czasu odwiedzają mój ogród, co mi się nie podoba, ponieważ mają tendencję do …

17 machine-learning

2

Użyj liblinear na dużych danych do analizy semantycznej

Używam Libsvm do trenowania danych i przewidywania klasyfikacji problemu analizy semantycznej . Ma jednak problem z wydajnością danych na dużą skalę, ponieważ analiza semantyczna dotyczy problemu n-wymiarowego . W ubiegłym roku Liblinear został wydany i może rozwiązać wąskie gardło wydajności. Ale to kosztowało zbyt dużo pamięci . Czy MapReduce to …

17 machine-learning bigdata libsvm

1

Jak działa parametr validation_split funkcji dopasowania Keras?

Podział walidacji w funkcji dopasowania modelu sekwencyjnego Keras jest udokumentowany w następujący sposób na https://keras.io/models/sequential/ : validation_split: Zmienna między 0 a 1. Część danych treningowych do wykorzystania jako dane walidacyjne. Model oddzieli tę część danych treningowych, nie będzie na nich trenował i oceni utratę oraz wszelkie metryki modelu na tych …

17 keras data cross-validation

3

Jak obliczyć wpływ pamięci mini-wsadowej podczas szkolenia modeli dogłębnego uczenia się?

Próbuję obliczyć ilość pamięci potrzebną GPU do trenowania mojego modelu na podstawie tych notatek Andreja Karphaty'ego: http://cs231n.github.io/convolutional-networks/#computational-considerations Moja sieć ma 532,752 aktywacji i 19 027 984 parametrów (wag i odchyleń). Są to 32-bitowe wartości zmiennoprzecinkowe, więc każdy zajmuje 4 bajty pamięci. Mój obraz wejściowy to 180 x 50 x 1 …

17 deep-learning tensorflow

4

Jakieś praktyczne zasady dotyczące liczby funkcji w porównaniu z liczbą wystąpień? (małe zestawy danych)

Zastanawiam się, czy jest jakaś heurystyka na temat liczby cech w porównaniu z liczbą obserwacji. Oczywiście, jeśli liczba cech jest równa liczbie obserwacji, model się dopasuje. Stosując rzadkie metody (LASSO, elastyczna siatka) możemy usunąć kilka funkcji w celu zmniejszenia modelu. Moje pytanie brzmi (teoretycznie): czy przed użyciem wskaźników do oceny …

17 feature-selection model-selection

2

Polecanie filmów z dodatkowymi funkcjami za pomocą wspólnego filtrowania

Próbuję zbudować system rekomendacji przy użyciu filtrowania grupowego. Mam zwykłe [user, movie, rating]informacje. Chciałbym włączyć dodatkową funkcję, taką jak „język” lub „czas trwania filmu”. Nie jestem pewien, jakich technik mógłbym użyć w przypadku takiego problemu. Proszę sugerować referencje lub pakiety w Pythonie / R.

17 python r recommender-system

2

Jak zwiększyć dokładność klasyfikatorów?

Korzystam z przykładu OpenCV letter_recog.cpp do eksperymentowania na losowych drzewach i innych klasyfikatorach. Ten przykład zawiera implementacje sześciu klasyfikatorów - losowe drzewa, boosting, MLP, kNN, naiwne Bayesa i SVM. Używany jest zestaw danych do rozpoznawania liter UCI z 20000 wystąpieniami i 16 funkcjami, które podzieliłem na pół na szkolenia i …

17 machine-learning classification svm accuracy random-forest

5

Wybierz algorytm klasyfikacji binarnej

Mam problem z klasyfikacją binarną: Około 1000 próbek w zestawie treningowym 10 atrybutów, w tym binarne, numeryczne i kategoryczne Który algorytm jest najlepszym wyborem dla tego rodzaju problemu? Domyślnie zacznę od SVM (wstępne posiadanie nominalnych wartości atrybutów przekonwertowanych na funkcje binarne), ponieważ jest uważane za najlepsze dla stosunkowo czystych i …

17 classification binary svm random-forest logistic-regression

5

powiększ mapę cieplną dna morskiego

Tworzę plik corr()df z oryginalnego pliku df. corr()Df wyszedł 70 x 70 i to jest niemożliwe, aby wyobrazić sobie mapę cieplną ... sns.heatmap(df). Jeśli spróbuję wyświetlić corr = df.corr(), tabela nie pasuje do ekranu i widzę wszystkie korelacje. Czy jest to sposób na wydrukowanie całości dfbez względu na jej rozmiar …

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Jaka jest korzyść z dzielenia pliku tfrecord na odłamki?

Pracuję nad rozpoznawaniem mowy z Tensorflow i planuję trenować LSTM NN z zestawem danych masywnych fal. Ze względu na wzrost wydajności planuję używać tfrecords. Istnieje kilka przykładów w Internecie (Inception na przykład.), W których pliki tfrecords są podzielone na odłamki. Moje pytanie brzmi: jaka jest korzyść z pliku tfrecords w …

17 python tensorflow

1

Deep Neural Network - Propagacja wsteczna z ReLU

Mam pewne trudności w uzyskaniu wstecznej propagacji za pomocą ReLU i wykonałem trochę pracy, ale nie jestem pewien, czy jestem na dobrej drodze. Funkcja kosztu: gdzie jest wartością rzeczywistą, a jest wartością przewidywaną. Zakładamy również, że > 0 zawsze.Y Y x12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx 1 warstwa ReLU, gdzie waga na 1. …

17 neural-network backpropagation

5

Scalanie rzadkich i gęstych danych w uczeniu maszynowym w celu poprawy wydajności

Mam rzadkie cechy, które są predykcyjne, mam też pewne gęste cechy, które są również predykcyjne. Muszę połączyć te funkcje razem, aby poprawić ogólną wydajność klasyfikatora. Rzecz w tym, że kiedy próbuję połączyć je ze sobą, cechy gęste mają tendencję do dominacji nad cechami rzadkimi, a zatem dają tylko 1% poprawę …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

2

Czy powinniśmy stosować normalizację również do testowania danych?

Robię projekt dotyczący problemu z identyfikacją autora. Zastosowałem normalizację tf-idf do trenowania danych, a następnie wyszkoliłem svm na tych danych. Teraz, używając klasyfikatora, powinienem również znormalizować dane testowe. Wydaje mi się, że podstawowym celem normalizacji jest sprawienie, aby algo uczenia się przywiązywało większą wagę do ważniejszych funkcji podczas nauki. Więc …

17 machine-learning neural-network deep-learning