Koduję wiele parserów. Do tej pory korzystałem z bezgłowej przeglądarki HtmlUnit do analizowania i automatyzacji przeglądarki.
Teraz chcę oddzielić oba zadania.
Ponieważ 80% mojej pracy polega na analizie, chcę użyć lekkiego parsera HTML, ponieważ najpierw zajmuje dużo czasu w HtmlUnit, aby załadować stronę, następnie pobrać źródło, a następnie parsować.
Chcę wiedzieć, który parser HTML jest najlepszy. Analizator składni byłby lepszy, gdyby był zbliżony do analizatora składni HtmlUnit.
EDYTOWAĆ:
Co najlepsze, chcę przynajmniej następujące funkcje:
- Prędkość
- Łatwo zlokalizuj dowolny element HTML za pomocą jego „id”, „name” lub „tag type”.
Byłoby dla mnie ok, jeśli nie wyczyści brudnego kodu HTML. Nie muszę czyścić żadnego źródła HTML. Potrzebuję tylko najprostszego sposobu na poruszanie się po elementach HTML i zbieranie z nich danych.