Pytania otagowane jako html-parsing

Analiza HTML to proces polegający na przeprowadzaniu serializacji dokumentu HTML i tworzeniu reprezentacji, z którą można pracować programowo - np. W celu wyodrębnienia z niego danych. Specyfikacja HTML definiuje standardowy algorytm parsowania HTML, który jest zaimplementowany we wszystkich głównych przeglądarkach.


30
Opcje skrobania HTML? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad wypróbowaniem Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jeszcze jakieś …

9
Analizuj ciąg HTML za pomocą JS
Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem: Chcę przeanalizować ciąg zawierający tekst HTML. Chcę to zrobić w JavaScript. Wypróbowałem tę bibliotekę, ale wygląda na to, że analizuje ona HTML mojej bieżącej strony, a nie ciąg znaków. Ponieważ kiedy wypróbuję poniższy kod, zmienia tytuł mojej strony: var …

18
Używanie wyrażeń regularnych do analizowania HTML: dlaczego nie?
Wydaje się, że każde pytanie w przepełnieniu stosu, w którym pytający używa wyrażenia regularnego w celu pobrania informacji z HTML, nieuchronnie będzie miało „odpowiedź”, która mówi, aby nie używać wyrażenia regularnego do analizowania HTML. Dlaczego nie? Wiem, że istnieją „prawdziwe” parsery HTML bez cudzysłowów, takie jak Piękna Zupa , i …

3
Który parser HTML jest najlepszy? [Zamknięte]
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

7
Analizowanie HTML za pomocą Pythona
Szukam modułu parsera HTML dla Pythona, który może pomóc mi uzyskać tagi w postaci list / słowników / obiektów Pythona. Jeśli mam dokument w formie: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> to powinno dać mi dostęp do zagnieżdżonych tagów poprzez nazwę lub …


5
Jak działają analizy HTML, jeśli nie używają wyrażenia regularnego?
Codziennie widzę pytania pytające, jak przeanalizować lub wyodrębnić coś z jakiegoś ciągu HTML, a pierwsza odpowiedź / komentarz zawsze brzmi: „Nie używaj RegEx do analizowania HTML, żebyś nie poczuł gniewu!” (ta ostatnia część jest czasami pomijana). Jest to dla mnie dość mylące, zawsze myślałem, że ogólnie najlepszym sposobem przeanalizowania każdego …

5
Jak przeanalizować stronę HTML za pomocą Node.js.
Muszę przeanalizować (po stronie serwera) duże ilości stron HTML. Wszyscy zgadzamy się, że regexp nie jest właściwą drogą. Wydaje mi się, że javascript jest natywnym sposobem parsowania strony HTML, ale założenie to opiera się na kodzie po stronie serwera, który ma wszystkie możliwości DOM, jakie javascript ma w przeglądarce. Czy …

8
Jak wyodrębnić ciąg następujący po wzorcu za pomocą grep, regex lub perl
Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> I trzeba wyodrębnić coś wewnątrz cudzysłowów, które następują name=, to znaczy content_analyzer, content_analyzer2i content_analyzer_items. Robię to na Linuksie, więc rozwiązanie wykorzystujące sed, perl, grep lub …

8
Jak znormalizować HTML w JavaScript lub jQuery?
Tagi mogą mieć wiele atrybutów. Kolejność, w jakiej atrybuty pojawiają się w kodzie, nie ma znaczenia. Na przykład: <a href="#" title="#"> <a title="#" href="#"> Jak mogę „znormalizować” kod HTML w JavaScript, aby kolejność atrybutów była zawsze taka sama? Nie obchodzi mnie, która kolejność jest wybrana, o ile zawsze jest taka …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.