Czy powinienem używać treningu lstm lub TIFF / BOX?

Zamierzam tesseract przeszkolić, aby rozpoznać informacje poufne (3-literowe, po których następują cyfry, chodzi o to, aby znaleźć 3 litery, więc po przetworzeniu możemy zablokować ten dokument, ponieważ ma on poufne informacje). Podczas gdy poufne informacje mają wysoki priorytet, dokładność również jest kluczowa, a nieco niższa prędkość.

Bieżące testy pokazują (przy użyciu najlepiej wyszkolonych danych), że tesseract z auto-rozrzedzonym tekstem z segmentacją OCD znajduje go jednak znacznie wolniej (szczególnie w przypadku większych plików). Ta segmentacja również daje dużo bardziej losowe znaki (co nie jest problemem aż do punktu, ponieważ postproccess usuwa większość z nich poza:;; i &).

Dla mnie są to opłacalne opcje:

Dostrój dla:;! & Amp; znaków, aby upewnić się, że dokładnie wie, jak je rozpoznawać, więc gdy proces odgadnie losowy charakter, będzie mniej prawdopodobne, że użyje 4 znaków, których naprawdę nie można usunąć w procesie przetwarzania końcowego.
Dostrój 3 znaki wskazujące poufne informacje.
Używanie innego trybu segmentacji, ale uczenie tego samego poufnego wskaźnika informacji (dla lepszej szybkości i dokładności)

Podsumowując, jaki rodzaj szkolenia jest zalecany dla tego rodzaju specyfikacji?

Mam nadzieję, że bardziej doświadczeni użytkownicy tesseract mogą mi pomóc. Dziękuję za przeczytanie mojego posta.

tesseract-ocr

— Kristóf Horváth
źródło

Zrobiłeś świetną robotę, czyniąc to bardzo specyficznym, ukierunkowanym pytaniem, więc jest to dla niego dobre (w rzeczywistości może prawdopodobnie skorzystać z mniejszej ilości informacji stycznych). To powiedziawszy, nie sądzę, że istnieje "właściwa odpowiedź" na to, o co prosisz. Jest to tak samo sztuka jak nauka, a przy tak ukierunkowanym wymogu wpływają na nią takie cechy, jak określone postacie, które chcesz dyskryminować, oraz milion innych czynników. Myślę, że jedynym sposobem na znalezienie odpowiedzi jest eksperymentowanie. (kont.)

— fixer1234

Nie jest to coś, co ktoś może znaleźć w książce odniesienia i nie jest to standardowe, ogólne wymaganie, które można przetłumaczyć z czyjegoś doświadczenia. Podejrzewam, że przyciągnie to bliskie głosy (w tym moje), ale zawsze jest szansa, że dostanie dobrą odpowiedź. Zaczekam i zobaczę, jaki rodzaj odpowiedzi się pojawi. Powodzenia z tym.

— fixer1234

@ fixer1234 Dziękuję za opiekę nad mną i na pewno bym dostał twój komentarz jako odpowiedź. Nie oczekiwałem konkretnej odpowiedzi, starałem się unikać testów na wszystkie moje pomysły (ale masz rację, nie da się tego uniknąć), a także chciałem mieć pewność, że moja logika odejmowania przypadków testowych jest co najmniej w porządku.

— Kristóf Horváth

@ fixer1234 oh również opublikował to pytanie na forum tesseract (nie łączę go, ponieważ ma ten sam tytuł), więc możesz go z pewnością zamknąć, ale jeśli zostawisz to tutaj przez jakiś czas, może przyciągnąć uwagę innych, których mogę użyć do przerobienia moje pytanie (jeszcze raz), aby uczynić je ogólnymi, a nie konkretnymi.

— Kristóf Horváth