Pytania otagowane jako html-content-extraction

30
Opcje skrobania HTML? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad wypróbowaniem Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jeszcze jakieś …

30
Wyodrębnianie tekstu z pliku HTML za pomocą Pythona
Chciałbym wyodrębnić tekst z pliku HTML za pomocą Pythona. Chcę zasadniczo taki sam wynik, jaki uzyskałbym, gdy skopiowałem tekst z przeglądarki i wkleiłem go do notatnika. Chciałbym czegoś bardziej niezawodnego niż używanie wyrażeń regularnych, które mogą zawieść na źle sformatowanym HTML. Widziałem wiele osób polecających piękną zupę, ale miałem kilka …

8
Wyodrębnij część dopasowania wyrażenia regularnego
Chcę, aby wyrażenie regularne wyodrębniło tytuł ze strony HTML. Obecnie mam to: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Czy istnieje wyrażenie regularne do wyodrębniania tylko zawartości <title>, aby nie musieć usuwać tagów?

10
BeautifulSoup Grab Widoczny tekst strony internetowej
Zasadniczo chcę używać BeautifulSoup do ścisłego przechwytywania widocznego tekstu na stronie internetowej. Na przykład ta strona internetowa jest moim przypadkiem testowym. I przede wszystkim chcę uzyskać tekst podstawowy (artykuł) i może nawet kilka nazw kart tu i tam. Wypróbowałem sugestię w tym pytaniu SO, która zwraca wiele <script>tagów i komentarzy …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.