Programowanie html-parsing

30

Jak parsujesz i przetwarzasz HTML / XML w PHP?

Jak parsować HTML / XML i wyciągać z niego informacje?

2120 php xml parsing xml-parsing html-parsing

30

Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad wypróbowaniem Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jeszcze jakieś …

406 html web-scraping html-parsing html-content-extraction

9

Analizuj ciąg HTML za pomocą JS

Szukałem rozwiązania, ale nic nie było istotne, więc oto mój problem: Chcę przeanalizować ciąg zawierający tekst HTML. Chcę to zrobić w JavaScript. Wypróbowałem tę bibliotekę, ale wygląda na to, że analizuje ona HTML mojej bieżącej strony, a nie ciąg znaków. Ponieważ kiedy wypróbuję poniższy kod, zmienia tytuł mojej strony: var …

258 javascript html dom html-parsing

18

Używanie wyrażeń regularnych do analizowania HTML: dlaczego nie?

Wydaje się, że każde pytanie w przepełnieniu stosu, w którym pytający używa wyrażenia regularnego w celu pobrania informacji z HTML, nieuchronnie będzie miało „odpowiedź”, która mówi, aby nie używać wyrażenia regularnego do analizowania HTML. Dlaczego nie? Wiem, że istnieją „prawdziwe” parsery HTML bez cudzysłowów, takie jak Piękna Zupa , i …

207 regex html-parsing

3

Który parser HTML jest najlepszy? [Zamknięte]

W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

194 java html parsing html-parsing web-scraping

7

Analizowanie HTML za pomocą Pythona

Szukam modułu parsera HTML dla Pythona, który może pomóc mi uzyskać tagi w postaci list / słowników / obiektów Pythona. Jeśli mam dokument w formie: <html> <head>Heading</head> <body attr1='val1'> <div class='container'> <div id='class'>Something here</div> <div>Something else</div> </div> </body> </html> to powinno dać mi dostęp do zagnieżdżonych tagów poprzez nazwę lub …

185 python xml-parsing html-parsing

17

Regex zaznacz cały tekst między tagami

Jaki jest najlepszy sposób zaznaczenia całego tekstu między dwoma tagami - np. Tekst między wszystkimi tagami „przed” na stronie.

143 html regex html-parsing

5

Jak działają analizy HTML, jeśli nie używają wyrażenia regularnego?

Codziennie widzę pytania pytające, jak przeanalizować lub wyodrębnić coś z jakiegoś ciągu HTML, a pierwsza odpowiedź / komentarz zawsze brzmi: „Nie używaj RegEx do analizowania HTML, żebyś nie poczuł gniewu!” (ta ostatnia część jest czasami pomijana). Jest to dla mnie dość mylące, zawsze myślałem, że ogólnie najlepszym sposobem przeanalizowania każdego …

96 html regex parsing html-parsing

5

Jak przeanalizować stronę HTML za pomocą Node.js.

Muszę przeanalizować (po stronie serwera) duże ilości stron HTML. Wszyscy zgadzamy się, że regexp nie jest właściwą drogą. Wydaje mi się, że javascript jest natywnym sposobem parsowania strony HTML, ale założenie to opiera się na kodzie po stronie serwera, który ma wszystkie możliwości DOM, jakie javascript ma w przeglądarce. Czy …

92 node.js html-parsing server-side

8

Jak wyodrębnić ciąg następujący po wzorcu za pomocą grep, regex lub perl

Mam plik, który wygląda mniej więcej tak: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" primary-key="id"> <type="global" /> </table> I trzeba wyodrębnić coś wewnątrz cudzysłowów, które następują name=, to znaczy content_analyzer, content_analyzer2i content_analyzer_items. Robię to na Linuksie, więc rozwiązanie wykorzystujące sed, perl, grep lub …

90 regex perl sed html-parsing text-extraction

8

Jak znormalizować HTML w JavaScript lub jQuery?

Tagi mogą mieć wiele atrybutów. Kolejność, w jakiej atrybuty pojawiają się w kodzie, nie ma znaczenia. Na przykład: <a href="#" title="#"> <a title="#" href="#"> Jak mogę „znormalizować” kod HTML w JavaScript, aby kolejność atrybutów była zawsze taka sama? Nie obchodzi mnie, która kolejność jest wybrana, o ile zawsze jest taka …

84 javascript jquery html html-parsing

Pytania otagowane jako html-parsing