Potrzebuję przenieść tysiące fragmentów tekstu z plików PDF do arkusza kalkulacyjnego. Są krótkie, rzadko więcej niż 2-3 rzędy, ale każdy podział linii tworzy nową komórkę i muszę ją naprawić ręcznie, co kosztuje dużo czasu.
Ponieważ mam ich tak wiele, użycie metody „wklej do programu Word i wykonaj operację znajdowania i zastępowania” jest dla mnie zbyt czasochłonne. Czy istnieje sposób, aby podział linii zniknął podczas kopiowania? Może istnieje przeglądarka, która oferuje do tego specjalny tryb kopiowania lub ma wtyczkę?
Dokumenty są artykułami naukowymi. Układ tekstu jest dość liniowy. Możesz założyć, że tekst, który kopiuję, nie znajduje się w tabeli ani na liczbach zmiennoprzecinkowych, nie jest obrócony ani nic. (Jeśli coś takiego się wydarzy, myślę, że poradzę sobie z tym ręcznie). Tekst jest często ustawiany w dwóch kolumnach, ale nie mam problemu z zaznaczeniem tylko tekstu, którego potrzebuję z jego kolumny. Nie muszę zachowywać żadnego specjalnego formatowania. Jestem gotów wypróbować rozwiązanie, które usuwa na przykład wszystkie niedrukowalne znaki. Teksty są w języku angielskim, jest OK, jeśli rozwiązanie działa tylko w ASCII / usuwa wszystkie niealfanumeryczne ASCII kopiowanego tekstu.
Mam bardzo silną preferencję dla rozwiązania, które będzie działać na Linuksie, być może jakiejś wtyczki Okular. Ale jeśli zdarzy się rozwiązanie tylko dla systemu Windows, chcę o tym również usłyszeć. Mam licencję na nieco nową wersję programu Acrobat Pro na komputerze z systemem Windows.