Nauka danych

Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny



1
Spark, optymalnie dzieląc jeden RDD na dwa
Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: …

3
Model przestrzeni wektorowej cosinus tf-idf do wyszukiwania podobnych dokumentów
Posiadaj korpus ponad miliona dokumentów Dla danego dokumentu chcesz znaleźć podobne dokumenty przy użyciu cosinus jak w modelu przestrzeni wektorowej d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Wszystkie tf zostały znormalizowane przy użyciu zwiększonej częstotliwości, aby zapobiec tendencyjności do dłuższych dokumentów, jak w tym tf-idf : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} …

4
Jak zeskrobać stronę IMDB?
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …

1
Wiele etykiet w nadzorowanym algorytmie uczenia się
Mam korpus tekstu z odpowiednimi tematami. Na przykład "A rapper Tupac was shot in LA"i został oznaczony jako ["celebrity", "murder"]. Zasadniczo każdy wektor cech może mieć wiele etykiet (nie tyle samo. Pierwszy wektor cech może mieć 3 etykiety, drugi 1, trzeci 5). Gdybym miał tylko jedną etykietę odpowiadającą każdemu tekstowi, …

2
Skalowalne wykrywanie wartości odstających / anomalii
Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …

1
Biblioteki dla (algorytmy propagacji etykiet / częste przeszukiwanie subgrafów) dla wykresów w języku R
Ogólny opis problemu Mam wykres, na którym niektóre wierzchołki są oznaczone typem o 3 lub 4 możliwych wartościach. Dla pozostałych wierzchołków typ jest nieznany. Moim celem jest użycie wykresu do przewidzenia typu wierzchołków, które nie są oznaczone. Możliwe ramy Podejrzewam, że wpisuje się to w ogólne ramy problemów związanych z …

3
Analiza pliku dziennika: wyodrębnianie części informacyjnej z części wartościowej
Próbuję zbudować zestaw danych na kilku plikach dziennika jednego z naszych produktów. Różne pliki dziennika mają własny układ i własną zawartość; Z powodzeniem pogrupowałem je razem, pozostał tylko jeden krok ... Rzeczywiście, „wiadomości” dziennika są najlepszą informacją. Nie mam wyczerpującej listy wszystkich tych wiadomości, a kodowanie na podstawie tych kodów …

2
Biblioteki do uczenia maszynowego online
Szukam pakietów (zarówno w języku Python, R, jak i samodzielnym) do przeprowadzania nauki online w celu przewidywania danych giełdowych. Znalazłem i przeczytałem o Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), co wydaje się dość obiecujące, ale zastanawiam się, czy są jeszcze jakieś inne pakiety. Z góry dziękuję.

2
wprowadzenie różnicy czasowej w szachach
Opracowuję program szachowy, który wykorzystuje algorytm przycinania alfa-beta i funkcję oceny, która ocenia pozycje za pomocą następujących cech, a mianowicie materiału, bezpieczeństwa królewskiego, mobilności, struktury pionków i pułapek itp. Moja funkcja oceny to pochodzące z fa( p ) = w1⋅ materiał + w2)⋅ kingsafety + w3)⋅ mobilność + w4⋅ struktura …


2
Wyodrębnij ciąg kanoniczny z listy hałaśliwych ciągów
Mam tysiące list ciągów, a każda lista zawiera około 10 ciągów. Większość ciągów na danej liście jest bardzo podobnych, chociaż niektóre ciągi są (rzadko) całkowicie niezwiązane z innymi, a niektóre ciągi zawierają nietrafne słowa. Można je uznać za hałaśliwe odmiany łańcucha kanonicznego. Szukam algorytmu lub biblioteki, która przekonwertuje każdą listę …

3
Jak skaluje się różne techniki statystyczne (regresja, PCA itp.) Wraz z wielkością i rozmiarem próbki?
Czy istnieje znana ogólna tabela technik statystycznych, która wyjaśnia, w jaki sposób skalują się w zależności od wielkości i wymiaru próbki? Na przykład mój przyjaciel powiedział mi kiedyś, że czas obliczeń po prostu szybkiego sortowania jednowymiarowych danych o rozmiarze n jest równy n * log (n). Na przykład, jeśli cofniemy …

3
Statystyka + informatyka = nauka o danych? [Zamknięte]
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym wymiany danych stosu nauki. Zamknięte 5 lat temu . chcę zostać naukowcem danych . Studiowałem statystyki stosowane (nauki aktuarialne), więc mam świetne zaplecze statystyczne (regresja, proces stochastyczny, szeregi …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.