Ostatnio dowiedziałem się, że użycie wyrażenia regularnego do parsowania kodu HTML strony internetowej w celu uzyskania potrzebnych danych nie jest najlepszym rozwiązaniem.
Więc moje pytanie jest proste: co zatem jest najlepszym / najbardziej wydajnym i ogólnie stabilnym sposobem na uzyskanie tych danych?
Powinienem zauważyć, że:
- Brak interfejsów API
- Nie ma innego źródła, z którego mogę uzyskać dane (brak baz danych, kanałów itp.)
- Nie ma dostępu do plików źródłowych. (Dane z publicznych stron internetowych)
- Powiedzmy, że dane to zwykły tekst wyświetlany w tabeli na stronie HTML
Obecnie używam Pythona do mojego projektu, ale fajne byłoby rozwiązanie / wskazówki niezależne od języka.
Jako pytanie poboczne: jak byś to zrobił, gdy strona internetowa jest zbudowana z wywołań Ajax?
EDYTOWAĆ:
W przypadku parsowania HTML wiem, że nie ma stabilnego sposobu na uzyskanie danych. Gdy tylko strona się zmieni, twój parser jest gotowy. W tym przypadku chodzi mi o stabilny: skuteczny sposób parsowania strony, który zawsze daje mi te same wyniki (oczywiście dla tego samego zestawu danych), pod warunkiem, że strona się nie zmienia.