Szukam biblioteki PDF, która pozwoli mi wyodrębnić tekst z dokumentu PDF. Spojrzałem na PyPDF i to może bardzo ładnie wyodrębnić tekst z dokumentu PDF. Problem polega na tym, że jeśli w dokumencie znajdują się tabele, tekst w tabelach jest wyodrębniany w jednej linii z pozostałą częścią tekstu dokumentu. Może to być problematyczne, ponieważ tworzy sekcje tekstu, które nie są użyteczne i wyglądają na zniekształcone (na przykład wiele liczb połączonych razem).
Chciałbym wyodrębnić tekst z dokumentu PDF bez jakichkolwiek tabel i specjalnego formatowania. Czy jest tam biblioteka, która to robi?