Pytania otagowane jako information-retrieval

6
Klasyfikacja statystyczna tekstu
Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej zmiennej i rachunek wielu zmiennych całkiem dobrze, więc moja …

2
Pomiar podobieństwa dokumentu
Do grupowania dokumentów (tekstowych) potrzebny jest sposób pomiaru podobieństwa między parami dokumentów. Dwie alternatywy to: Porównaj dokumenty jako wektory terminów za pomocą podobieństwa Cosinus - i TF / IDF jako ważenia terminów. Porównaj rozkład prawdopodobieństwa każdego dokumentu za pomocą rozbieżności f, np. Rozbieżności Kullbacka-Leiblera Czy jest jakiś intuicyjny powód, aby …

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


1
Parellel między LSA i pLSA
W oryginalnej pracy pLSA autor, Thomas Hoffman, rysuje paralelę między strukturami danych pLSA i LSA, o których chciałbym z tobą porozmawiać. Tło: Czerpiąc inspirację z wyszukiwania informacji, załóżmy, że mamy kolekcję NNN dokumenty D={d1,d2,....,dN}D={d1,d2,....,dN}D = \lbrace d_1, d_2, ...., d_N \rbrace i słownictwo MMM warunki Ω={ω1,ω2,...,ωM}Ω={ω1,ω2,...,ωM}\Omega = \lbrace \omega_1, \omega_2, …

1
Jak porównać obserwowane i oczekiwane zdarzenia?
Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Zrozumienie i zastosowanie analizy nastrojów
Właśnie przydzielono mi projekt przeprowadzania analizy sentymentu dla niektórych zbiorów dokumentów. Przez Googling pojawiło się wiele badań związanych z sentymentem. Moje pytania to: Jakie są główne metody / algorytmy analizy sentymentów w dziedzinie uczenia maszynowego i analizy statystycznej? Czy są jakieś ugruntowane wyniki? Czy istnieje jakieś oprogramowanie typu open source, …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.