Tekst fizyczny na tekst cyfrowy


9

Pozwól mi najpierw poprzedzić to pytanie, nie mam pojęcia, która strona StackExchange byłaby najbardziej odpowiednia dla tego pytania, ale pomyślałem, że LifeHacks może działać ...

W 1998 r. Strona mojej mamy zjednoczyła się w rodzinie (moja prababka miała dziesięcioro dzieci, więc naprawdę było to wielkie spotkanie). Jeden z moich odległych wujków napisał coś na temat historii naszych rodzin na to spotkanie, a moja mama dała mi książkę do przeczytania. Nie mogłem uwierzyć, jak duży jest i ile badań poświęcono książce. Chciałbym wymyślić sposób na umieszczenie całej książki na stronie, którą zamierzam zrobić, gdzie mogę ją następnie udostępnić wszystkim w naszej rodzinie i ostatecznie zachować historię na dłużej niż ta kiepska książka.

Mam nadzieję, że nie muszę wpisywać słowa w słowo, że ta 300-stronicowa książka jest w stanie po prostu zeskanować strony i uzyskać je w postaci tekstu cyfrowego? Oczywiście mógłbym po prostu zrobić zdjęcia i sprawić, że strona będzie korzystać ze zdjęć, ale wydaje mi się, że korzystniej byłoby mieć go jako rzeczywisty tekst, ponieważ wtedy mógłby się lepiej wyświetlać w wyszukiwarce Google, gdy ktoś szuka nazwiska członka rodziny lub czegoś podobnego. Ponadto, jeśli ktoś z rodziny kiedykolwiek przeprowadziłby projekt badawczy dotyczący naszej rodziny, byłby w stanie skopiować część tekstu i odwołać się do niego łatwiej.

Czy więc ktoś wie, jak najlepiej przekształcić tę starą książkę rodzinną w tekst cyfrowy?

Zarezerwuj pierwszą stronę

Książka wskazująca grubość

Odpowiedzi:


14

Użyj telefonu z Androidem i funkcji „ Google Lens ” ostatnio dodanej do aplikacji do zdjęć i recenzji zdjęć z aparatu.

OCR za pomocą Google Lens jest niesamowity i dokładny w stosunku do jakiegokolwiek oprogramowania OCR, z którego kiedykolwiek korzystałem.

Poniżej znajdują się zrzuty ekranu przedstawiające procedurę przy użyciu taniego (100 USD) telefonu Nokia 3, najlepszego telefonu, z którego miałem przyjemność korzystać, odkąd mój ukochany Nexus 4 porzucił ducha.

Sprecyzuję przykładowy skan OCR greckiej książki o etymologiach wydrukowanej w 1976 r., Której nie ośmielę się rozerwać na skanowanie, która wydaje się mieć podobną gęstość znaków i krój pisma.

Zrobiłem to oryginalne zdjęcie w mniej niż idealnych warunkach oświetleniowych, używając wszystkich automatycznych ustawień w tak bardzo aparacie telefonicznym, nie użyto żadnych specjalnych technik fotograficznych ani urządzeń, aby poprawić wynik, można powiedzieć, że jest to zwykłe amatorsko zrobione zdjęcie telefonu strona książki . (Tylko upewnij się, że tekst jest ostry, żaden OCR nie rozszyfruje rozmytego, nieostrego tekstu)

wprowadź opis zdjęcia tutaj

Kliknij ikonę soczewki Google, dostępną w podglądzie po zrobieniu zdjęcia lub na samym zdjęciu za pomocą aplikacji do zdjęć Google

wprowadź opis zdjęcia tutaj

Oto - Skynet - ^M^M^M^M^M^Mmam na myśli, że Google Lens wykonuje swoje magiczne skanowanie (kropki są trochę przerażające, ale musieli coś zrobić, aby poinformować cię, że Google google robi swoje, jak sądzę)

wprowadź opis zdjęcia tutaj

Po zeskanowaniu obrazu obszary tekstowe znalezione przez Google Lens na obrazie są wyraźnie zarysowane, a ich tekst jest już wyodrębniony do dolnej połowy ekranu. jeśli chcesz tylko niektóre obszary, a nie inne, po prostu dotknij swojego wyboru, aby je włączyć / wyłączyć.

Jeśli dotkniesz wyodrębnionego tekstu, zostanie on umieszczony w schowku w celu skopiowania / wklejenia dobroci w dowolnym miejscu telefonu.

wprowadź opis zdjęcia tutaj

Następnie po prostu wklej tekst do dokumentu Google Docs . Tam możesz: - poprawić wszelkie błędy tutaj lub na komputerze, - udostępnić dokument do treści twojego serca, - opublikować go jako stronę internetową z aktualizacjami na żywo twoich zmian, lub - wyeksportować do - zwykłego tekstu, - dokumentu słownego , - dokument w otwartym biurze, - kompatybilna z kindle elektroniczna książka epub z tekstem do ponownego wlewania, lub - dobry stary dokument w formacie innym niż DRMd

Można argumentować, że jest to prawdopodobnie najkrótsza droga do publikacji, z możliwie najszerszym wyborem wyników.

Możesz zrobić to wszystko z jednego urządzenia (telefon z zainstalowanymi odpowiednimi aplikacjami) i zrobić to w mgnieniu oka z wysoką dokładnością, zasadniczo za darmo.

Oto wklejony fragment Dokumentów Google
wprowadź opis zdjęcia tutaj

Oto udostępnianie adresów URL dokumentów Google. Skomentuj. Możesz również poprosić kogoś o pomoc w edytowaniu dokumentu zdalnie i jednocześnie.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Wreszcie tutaj jest witryna Witryn Google opublikowana przy użyciu wyżej wymienionego dokumentu jako źródła z linkiem

https://sites.google.com/h-lo.me/ocrsample

Jest obsługiwany przez https, na komputery i urządzenia mobilne. Nieźle jak na 15 minut całkowitej pracy i żadnego kodowania.


Pozostało jeszcze jedno udoskonalenie, a mianowicie utworzenie odpowiednich akapitów w dokumencie Google, ponieważ Google Lens wstawia twardy zwrot po każdym wierszu wyodrębnionego tekstu, co sprawia, że ​​każdy wiersz jest własnym akapitem i stanie się to problemem, jeśli chcesz użyć Funkcje Dokumentów Google, takie jak spis treści , lub podczas eksportowania dokumentu do kompatybilnej z elektroniką książki elektronicznej w e-pubie (bałagan w przepływie tekstu)

Możesz po prostu dołączyć do każdej linii, gdzie jest to właściwe, naciskając klawisz Backspace na początku każdej linii, lub można to zautomatyzować za pomocą skryptu.

Piszę więc dodatek do skryptu aplikacji, który wkrótce opublikuję, aby zautomatyzować ten proces. Dam ci znać, kiedy to się skończy.


Dobry szczegół. Podoba mi się to bezpłatne rozwiązanie. Dzięki!
Kyle Bridenstine,

Cała przyjemność po mojej stronie! Możesz mieć nawet wszystko, czego potrzebujesz! :)
hlecuanda,

W przypadku grubej książki jest to bardzo pracochłonne podejście: musisz ręcznie przewrócić każdą stronę, a następnie ją sfotografować.
Hobbes,

6

Możesz to zrobić etapami. Zacznij od umieszczania wszystkiego w trybie online podczas skanowania stron i aktualizowania w miarę możliwości. Plastikowe wiązanie grzebienia cerlox ™ ułatwia rozłączenie i ponowne włożenie z powrotem do wiązania.

Ponieważ wydruk wydaje się być normalnym typem szeryfowym w tym samym rozmiarze, skany można digitalizować za pomocą oprogramowania do optycznego rozpoznawania znaków. OCR może dostarczyć projekt pliku tekstowego, który można poprawić i opublikować na stronie internetowej w celu uzyskania ostatecznej formy.

Jednocześnie możesz uporządkować zdjęcia i inne materiały obrazkowe.

Możesz to zrobić, gdy czas / zasoby stają się dostępne dla projektu.


Podobne do poprzedniej odpowiedzi, ale nie tak szczegółowe.
Trajan Espelien

@TrajanEspelien Jaka była poprzednia odpowiedź? Sprawdź znacznik czasu. Odpowiedź była pierwsza, dwa dni przed złożeniem hiecuandy. :)
Stan

Tak, ale nie ma tyle szczegółów, co druga odpowiedź, dlatego zaakceptowałem drugą. Nie jest to kto pierwszy, ten lepszy… to najlepsza odpowiedź.
Kyle Bridenstine

@KyleBridenstine No Kidding! Głosowałem też za hiecuandą. To była świetna odpowiedź. Nawiasem mówiąc, co jeśli nie masz telefonu z Androidem lub nie masz dostępu do Glass? Udzieliłem ogólnej odpowiedzi na pytanie. :)
Stan

1
@KyleBridenstine Dziękuję za miłe słowa. Zgadzamy się. Myślę, że zrobiłeś dobrze, czekając. Pierwsza odpowiedź jest NIE najlepiej (chyba, że jest z jakiegoś powodu. Są to terminy, mimo wszystko). Wysłałem link do Twojego pytania i wielką odpowiedź hiecuanda do kolegi, który musi zrobić to samo z ogromnym stosu rejestrów szkolnych z Brazylia!
Stan

2

Kilka dobrych odpowiedzi tutaj na samodzielne podejście.

Chciałbym dodać moje doświadczenie związane z płaceniem komuś innemu za to za Ciebie.

Korzystałem z Digitize My Books w Wielkiej Brytanii (osobiście mieszkam w Wielkiej Brytanii).

Byłem bardzo zadowolony z rezultatów: każda książka jest zwracana jako plik PDF z tekstem do przeszukiwania (i kopiowania). Stosowana jest standardowa technika PDF, w której oryginalny obraz dla każdej strony zostaje zachowany, ale z nakładką tekstową, dzięki czemu można podświetlić oryginalny tekst na stronie. Bardzo dobra jakość. Jako osoba zagraniczna z Wielkiej Brytanii nadal możesz wysyłać im książki.

Oferują również opcję, aby książka była w edytowalnym formacie dokumentu słownego, za dodatkową, ale bardzo rozsądną opłatą.

Jeśli nie wymagasz zwrotu oryginału, najtańszą opcją byłoby wybranie skanowania niszczącego. W tym miejscu strony są pobierane indywidualnie z książki i skanowane. Domyślnie oryginalna książka nie jest zwracana, chociaż uważam, że możesz o nią poprosić, być może za dodatkową opłatą (np. W przypadku przesyłki zwrotnej), ale strony będą luźne, a ich usunięcie zostanie zeskanowane indywidualnie. Skanowanie niszczące jest opcją wybraną dla wszystkich moich książek i nie wymagałem zwrotu oryginałów.

Oferują również kopiowanie nieniszczące, jeśli potrzebujesz oryginału, ale koszt jest wyższy. Akceptują również własne skany cyfrowe, jeśli sam zeskanowałeś już książkę - mogą to zrobić w pliku PDF lub Word z możliwością wyszukiwania, kopiowania.

Rozejrzyj się po ich stronie internetowej. Naprawdę uważam, że jest to najlepsza opcja: wydawać pieniądze, aby zaoszczędzić czas, zamiast spędzać czas, aby zaoszczędzić pieniądze.

Nie pracuję dla Digitize My Books ani nie posiadam w nich żadnych udziałów finansowych (akcjonariuszy lub innych).

Początkowo sam zacząłem „skanować” książki, fotografując przy użyciu aparatu DSLR (fotografowanie jest szybsze niż skanowanie płaskie) z każdą stroną otwartą za pomocą klipu do schowka i blu-tak. Ale uważam, że jest to dość pracochłonne.

Jeśli nadal chcesz to zrobić samodzielnie, ScanTailor jest aplikacją Windows Open Source, która formatuje, dzieli podwójne strony / pary stron podczas skanowania na poszczególne strony, prostuje je i „dewarp”. Tak, aby wynikowe strony wyglądały płasko i prosto zgodnie z potrzebami, jednak nie robi to OCR: wyniki są nadal obrazami bitmapowymi. Ale przynajmniej w pewien sposób można zautomatyzować wsadowe uporządkowanie wszelkich zniekształceń stron, szczególnie w przypadku nieniszczącego kopiowania, w którym trudno jest ustawić strony tak, aby były całkowicie płaskie dla dużych książek.

Zaktualizowano

Dodano więcej informacji o opcjach skanowania oferowanych przez usługę. ScanTailor dalsze informacje. Poprawki gramatyczne.


1

Najszybszym sposobem jest skontaktowanie się z krewnym i sprawdzenie, czy nadal mają oryginalne pliki, których użyli do utworzenia tej książki. Ze zdjęcia na pierwszej stronie powiedziałbym, że zostało zrobione na komputerze. Konwertuj z {wstaw tutaj naprawdę stary pakiet edytora tekstu} na bieżący format i gotowe.

Drugi najszybszy sposób na przekształcenie stosu materiałów drukowanych w dokument cyfrowy:

  1. Usuń wiązanie.
  2. Odetnij lewą krawędź stron, aby pozbyć się dziur. Otwory zakłócają podajnik dokumentów.
  3. Przejrzyj książkę i rozwiń wszelkie zagniecenia i inne uszkodzenia, które będą kolidować z podajnikiem dokumentów.
  4. Znajdź dowolną stosunkowo nowoczesną drukarkę dwustronną z podajnikiem dokumentów i funkcją skanowania. Skanuj do pliku PDF.

Następnie użyj dowolnego pakietu OCR, aby zmienić zeskanowane strony w plik Word. W tym celu korzystam z funkcji OCR w pełnej wersji Adobe Acrobat, ale istnieje wiele silników OCR.


0

Możesz wypróbować bardzo niedrogą usługę: zachowaj swoje wspomnienia.info. Robiąc to sam, używam skanera do skanowania do OmniPage, programu OCR, a następnie zapisuję jako plik pdf, który można całkowicie przeszukiwać. Ponieważ publikacja jest oprawiona plastykowo, łatwo jest rozebrać na części, aby zeskanować poszczególne strony, a następnie ponownie powiązać. Robienie zdjęć zgodnie z powyższymi sugestiami jest również bardzo wykonalne - dobre wśród wielu podejść.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.