Jestem zdezorientowany, jak obliczyć zakłopotanie próby wstrzymania podczas wykonywania Latent Dirichlet Allocation (LDA). Dokumenty na ten temat wrócą nad tym, co sprawia, że myślę, że brakuje mi czegoś oczywistego ...
Zakłopotanie jest postrzegane jako dobra miara wydajności dla LDA. Chodzi o to, że trzymasz próbkę wstrzymania, trenujesz LDA na pozostałych danych, a następnie obliczasz zakłopotanie wstrzymania.
Zakłopotanie można wyrazić wzorem:
(Zaczerpnięte z wyszukiwania obrazów w dużych bazach danych obrazów, Horster i in .)
Tutaj jest liczbą dokumentów (prawdopodobnie w próbce testowej), reprezentuje słowa w dokumencie , liczbę słów w dokumencie .w d d N d d
Nie jest dla mnie jasne, jak rozsądnie obliczyć , ponieważ nie mamy mieszanin tematycznych dla wyciągniętych dokumentów. Najlepiej byłoby, gdybyśmy wcześniej zintegrowali Dirichleta dla wszystkich możliwych mieszanin tematów i wykorzystali poznane wielomiani tematyczne. Obliczenie tej całki nie wydaje się jednak łatwym zadaniem.
Alternatywnie, możemy spróbować nauczyć się optymalnej kombinacji tematów dla każdego wyciągniętego dokumentu (biorąc pod uwagę nasze wyuczone tematy) i wykorzystać to do obliczenia zakłopotania. Byłoby to wykonalne, jednak nie jest tak trywialne, jak sugerują dokumenty takie jak Horter i in. I Blei i in., I nie od razu jest dla mnie jasne, że wynik będzie równoważny z powyższym idealnym przypadkiem.