Nauka danych

2

Tworzenie nowych kolumn przez powtarzanie wierszy w ramce danych pandy

Mam ramkę danych pand (X11) taką jak ta: w rzeczywistości mam 99 kolumn do dx99 dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 Chcę …

10 python data-cleaning pandas anaconda

3

Co jest szybsze: PostgreSQL vs MongoDB na dużych zestawach danych JSON?

Mam duży zestaw danych z 9-metrowymi obiektami JSON o wielkości ~ 300 bajtów każdy. Są to posty z agregatora linków: w zasadzie linki (adres URL, tytuł i identyfikator autora) oraz komentarze (tekst i identyfikator autora) + metadane. Mogą to być rekordy relacyjne w tabeli, z wyjątkiem tego, że mają jedno …

10 data-mining bigdata databases sql mongodb

1

Spark, optymalnie dzieląc jeden RDD na dwa

Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: …

10 apache-spark pyspark

3

Model przestrzeni wektorowej cosinus tf-idf do wyszukiwania podobnych dokumentów

Posiadaj korpus ponad miliona dokumentów Dla danego dokumentu chcesz znaleźć podobne dokumenty przy użyciu cosinus jak w modelu przestrzeni wektorowej d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Wszystkie tf zostały znormalizowane przy użyciu zwiększonej częstotliwości, aby zapobiec tendencyjności do dłuższych dokumentów, jak w tym tf-idf : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} …

10 text-mining similarity

4

Jak zeskrobać stronę IMDB?

Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …

10 data-mining python scraping

1

Wiele etykiet w nadzorowanym algorytmie uczenia się

Mam korpus tekstu z odpowiednimi tematami. Na przykład "A rapper Tupac was shot in LA"i został oznaczony jako ["celebrity", "murder"]. Zasadniczo każdy wektor cech może mieć wiele etykiet (nie tyle samo. Pierwszy wektor cech może mieć 3 etykiety, drugi 1, trzeci 5). Gdybym miał tylko jedną etykietę odpowiadającą każdemu tekstowi, …

10 machine-learning text-mining

2

Skalowalne wykrywanie wartości odstających / anomalii

Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …

10 data-mining bigdata algorithms outlier

1

Biblioteki dla (algorytmy propagacji etykiet / częste przeszukiwanie subgrafów) dla wykresów w języku R

Ogólny opis problemu Mam wykres, na którym niektóre wierzchołki są oznaczone typem o 3 lub 4 możliwych wartościach. Dla pozostałych wierzchołków typ jest nieznany. Moim celem jest użycie wykresu do przewidzenia typu wierzchołków, które nie są oznaczone. Możliwe ramy Podejrzewam, że wpisuje się to w ogólne ramy problemów związanych z …

10 classification r graphs

3

Analiza pliku dziennika: wyodrębnianie części informacyjnej z części wartościowej

Próbuję zbudować zestaw danych na kilku plikach dziennika jednego z naszych produktów. Różne pliki dziennika mają własny układ i własną zawartość; Z powodzeniem pogrupowałem je razem, pozostał tylko jeden krok ... Rzeczywiście, „wiadomości” dziennika są najlepszą informacją. Nie mam wyczerpującej listy wszystkich tych wiadomości, a kodowanie na podstawie tych kodów …

10 text-mining clustering

2

Biblioteki do uczenia maszynowego online

Szukam pakietów (zarówno w języku Python, R, jak i samodzielnym) do przeprowadzania nauki online w celu przewidywania danych giełdowych. Znalazłem i przeczytałem o Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), co wydaje się dość obiecujące, ale zastanawiam się, czy są jeszcze jakieś inne pakiety. Z góry dziękuję.

10 machine-learning online-learning

2

wprowadzenie różnicy czasowej w szachach

Opracowuję program szachowy, który wykorzystuje algorytm przycinania alfa-beta i funkcję oceny, która ocenia pozycje za pomocą następujących cech, a mianowicie materiału, bezpieczeństwa królewskiego, mobilności, struktury pionków i pułapek itp. Moja funkcja oceny to pochodzące z fa( p ) = w1⋅ materiał + w2)⋅ kingsafety + w3)⋅ mobilność + w4⋅ struktura …

10 machine-learning algorithms reinforcement-learning

4

Dlaczego kilka rodzajów modeli może dawać prawie identyczne wyniki?

Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych. Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ …

10 data-mining classification binary

2

Wyodrębnij ciąg kanoniczny z listy hałaśliwych ciągów

Mam tysiące list ciągów, a każda lista zawiera około 10 ciągów. Większość ciągów na danej liście jest bardzo podobnych, chociaż niektóre ciągi są (rzadko) całkowicie niezwiązane z innymi, a niektóre ciągi zawierają nietrafne słowa. Można je uznać za hałaśliwe odmiany łańcucha kanonicznego. Szukam algorytmu lub biblioteki, która przekonwertuje każdą listę …

10 nlp similarity information-retrieval

3

Jak skaluje się różne techniki statystyczne (regresja, PCA itp.) Wraz z wielkością i rozmiarem próbki?

Czy istnieje znana ogólna tabela technik statystycznych, która wyjaśnia, w jaki sposób skalują się w zależności od wielkości i wymiaru próbki? Na przykład mój przyjaciel powiedział mi kiedyś, że czas obliczeń po prostu szybkiego sortowania jednowymiarowych danych o rozmiarze n jest równy n * log (n). Na przykład, jeśli cofniemy …

10 bigdata statistics efficiency scalability

3

Statystyka + informatyka = nauka o danych? [Zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym wymiany danych stosu nauki. Zamknięte 5 lat temu . chcę zostać naukowcem danych . Studiowałem statystyki stosowane (nauki aktuarialne), więc mam świetne zaplecze statystyczne (regresja, proces stochastyczny, szeregi …

10 machine-learning statistics career