Pytania i odpowiedzi dotyczące specjalistów ds. Danych, specjalistów od uczenia maszynowego oraz osób zainteresowanych zdobyciem wiedzy na temat tej dziedziny
Mam duży zestaw danych z 9-metrowymi obiektami JSON o wielkości ~ 300 bajtów każdy. Są to posty z agregatora linków: w zasadzie linki (adres URL, tytuł i identyfikator autora) oraz komentarze (tekst i identyfikator autora) + metadane. Mogą to być rekordy relacyjne w tabeli, z wyjątkiem tego, że mają jedno …
Mam duży zestaw danych, który muszę podzielić na grupy zgodnie z określonymi parametrami. Chcę, aby zadanie przebiegło tak wydajnie, jak to możliwe. Mogę sobie wyobrazić dwa sposoby Opcja 1 - Utwórz mapę z oryginalnego RDD i filtra def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: …
Posiadaj korpus ponad miliona dokumentów Dla danego dokumentu chcesz znaleźć podobne dokumenty przy użyciu cosinus jak w modelu przestrzeni wektorowej d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Wszystkie tf zostały znormalizowane przy użyciu zwiększonej częstotliwości, aby zapobiec tendencyjności do dłuższych dokumentów, jak w tym tf-idf : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} …
Próbuję nauczyć się skrobania stron internetowych przy użyciu Pythona jako część wysiłku uczenia się analizy danych. Próbuję zeskrobać stronę internetową imdb, której adres URL jest następujący: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=19502012 Korzystam z modułu BeautifulSoup. Oto kod, którego używam: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie …
Mam korpus tekstu z odpowiednimi tematami. Na przykład "A rapper Tupac was shot in LA"i został oznaczony jako ["celebrity", "murder"]. Zasadniczo każdy wektor cech może mieć wiele etykiet (nie tyle samo. Pierwszy wektor cech może mieć 3 etykiety, drugi 1, trzeci 5). Gdybym miał tylko jedną etykietę odpowiadającą każdemu tekstowi, …
Usiłuję skonfigurować infrastrukturę dużych zbiorów danych za pomocą Hadoop, Hive, Elastic Search (między innymi) i chciałbym uruchomić niektóre algorytmy dla niektórych zestawów danych. Chciałbym, aby same algorytmy były skalowalne, więc wyklucza to używanie takich narzędzi, jak Weka, R, a nawet RHadoop. Apache Kornak Biblioteka wydaje się być opcja dobra, a …
Ogólny opis problemu Mam wykres, na którym niektóre wierzchołki są oznaczone typem o 3 lub 4 możliwych wartościach. Dla pozostałych wierzchołków typ jest nieznany. Moim celem jest użycie wykresu do przewidzenia typu wierzchołków, które nie są oznaczone. Możliwe ramy Podejrzewam, że wpisuje się to w ogólne ramy problemów związanych z …
Próbuję zbudować zestaw danych na kilku plikach dziennika jednego z naszych produktów. Różne pliki dziennika mają własny układ i własną zawartość; Z powodzeniem pogrupowałem je razem, pozostał tylko jeden krok ... Rzeczywiście, „wiadomości” dziennika są najlepszą informacją. Nie mam wyczerpującej listy wszystkich tych wiadomości, a kodowanie na podstawie tych kodów …
Szukam pakietów (zarówno w języku Python, R, jak i samodzielnym) do przeprowadzania nauki online w celu przewidywania danych giełdowych. Znalazłem i przeczytałem o Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), co wydaje się dość obiecujące, ale zastanawiam się, czy są jeszcze jakieś inne pakiety. Z góry dziękuję.
Opracowuję program szachowy, który wykorzystuje algorytm przycinania alfa-beta i funkcję oceny, która ocenia pozycje za pomocą następujących cech, a mianowicie materiału, bezpieczeństwa królewskiego, mobilności, struktury pionków i pułapek itp. Moja funkcja oceny to pochodzące z fa( p ) = w1⋅ materiał + w2)⋅ kingsafety + w3)⋅ mobilność + w4⋅ struktura …
Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych. Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ …
Mam tysiące list ciągów, a każda lista zawiera około 10 ciągów. Większość ciągów na danej liście jest bardzo podobnych, chociaż niektóre ciągi są (rzadko) całkowicie niezwiązane z innymi, a niektóre ciągi zawierają nietrafne słowa. Można je uznać za hałaśliwe odmiany łańcucha kanonicznego. Szukam algorytmu lub biblioteki, która przekonwertuje każdą listę …
Czy istnieje znana ogólna tabela technik statystycznych, która wyjaśnia, w jaki sposób skalują się w zależności od wielkości i wymiaru próbki? Na przykład mój przyjaciel powiedział mi kiedyś, że czas obliczeń po prostu szybkiego sortowania jednowymiarowych danych o rozmiarze n jest równy n * log (n). Na przykład, jeśli cofniemy …
Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym wymiany danych stosu nauki. Zamknięte 5 lat temu . chcę zostać naukowcem danych . Studiowałem statystyki stosowane (nauki aktuarialne), więc mam świetne zaplecze statystyczne (regresja, proces stochastyczny, szeregi …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.