Mam duży posortowany plik z miliardami linii o zmiennej długości. Biorąc pod uwagę nowy wiersz, chciałbym wiedzieć, który numer bajtu by się otrzymał, gdyby został uwzględniony w posortowanym pliku.
Przykład
a\n
c\n
d\n
f\n
g\n
Biorąc pod uwagę wejście „foo”, otrzymałbym wynik 9.
Łatwo to zrobić, po prostu przeglądając cały plik, ale mając miliardy linii o zmiennej długości, szybsze byłoby wyszukiwanie binarne.
Czy takie narzędzie do przetwarzania tekstu już istnieje?
Edytować:
Teraz działa: https://gitlab.com/ole.tange/tangetools/blob/master/bsearch/bsearch