Pytania otagowane jako text-processing

Manipulowanie lub sprawdzanie tekstu za pomocą programów, skryptów itp.

6
Filtrowanie niepoprawnego utf8
Mam plik tekstowy w nieznanym lub mieszanym kodowaniu. Chcę zobaczyć wiersze zawierające sekwencję bajtów, która jest niepoprawna UTF-8 (przez przesłanie pliku tekstowego do jakiegoś programu). Odpowiednio chcę odfiltrować wiersze, które są poprawne UTF-8. Innymi słowy, szukam .grep [notutf8] Idealne rozwiązanie byłoby przenośne, krótkie i możliwe do uogólnienia w stosunku do …




3
Jak mogę przetestować kodowanie pliku tekstowego… Czy jest prawidłowy i co to jest?
Mam kilka .htmplików, które otwierają się w Gedit bez żadnego ostrzeżenia / błędu, ale kiedy otwieram te same pliki Jedit, ostrzega mnie przed nieprawidłowym kodowaniem UTF-8 ... Metatag HTML stwierdza „charset = ISO-8859-1”. Jedit zezwala na listę zastępczych kodowań i listę automatycznych detektorów kodowania (obecnie „BOM XML-PI”), więc mój bezpośredni …

8
Jak przekonwertować TXT na PDF?
Chcę przekonwertować .txtpliki .pdf. Używam tego: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Ale to powoduje jeden „błąd” - jeśli w pliku tekstowym jest bardzo długa linia, nie jest ona zawijana. Wprowadź tekst Wyjście PDF - Byłoby również świetnie, gdyby wyjściowy …

5
Usuń ostatnią linię z pliku
Używam sed do szybkiego usuwania linii o określonej pozycji jako sed '1d' sed '5d' Ale co, jeśli chcę usunąć ostatni wiersz pliku i nie znam liczby wierszy (wiem, że mogę to zrobić za pomocą wckilku innych sztuczek). Obecnie za pomocą obejścia tego problemu headi w tailpołączeniu z nim wc. Jakieś …

5
Zastąpić zmienne środowiskowe w pliku ich rzeczywistymi wartościami?
Czy istnieje prosty sposób na zamianę / ocenę zmiennych środowiskowych w pliku? Powiedzmy, że mam plik config.xmlzawierający: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ...itp. Chcę zastąpić $INSTANCE_IDw pliku wartością INSTANCE_IDzmiennej środowiskowej $SERVICE_NAMEwartością SERVICE_NAMEenv var. Nie będę z góry wiedział, które zmienne środowiskowe są potrzebne (a raczej nie chcę …

4
Jak uzyskać tylko unikalne wyniki bez konieczności sortowania danych?
$ cat data.txt aaaaaa aaaaaa cccccc aaaaaa aaaaaa bbbbbb $ cat data.txt | uniq aaaaaa cccccc aaaaaa bbbbbb $ cat data.txt | sort | uniq aaaaaa bbbbbb cccccc $ W rezultacie potrzebuję wyświetlić wszystkie wiersze z oryginalnego pliku, usuwając wszystkie duplikaty (nie tylko kolejne), zachowując oryginalną kolejność instrukcji w pliku …




4
Grep od końca pliku do początku
Mam plik z około 30 000 000 wierszy (Radius Accounting) i muszę znaleźć ostatnie dopasowanie dla danego wzorca. Komenda: tac accounting.log | grep $pattern daje to, czego potrzebuję, ale jest zbyt wolne, ponieważ system operacyjny musi najpierw odczytać cały plik, a następnie wysłać go do potoku. Potrzebuję więc czegoś szybkiego, …


1
Jak uświadomić TR, że znaki nie są ascii (Unicode)?
Próbuję usunąć niektóre znaki z pliku (UTF-8). Używam trdo tego celu: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat Plik zawiera niektóre obce znaki (np. „Латвийская” lub „àé”). trwydaje się ich nie rozumieć: traktuje je jako inne niż alfa i również je usuwa. Próbowałem zmienić niektóre ustawienia regionalne: LC_CTYPE=C LC_COLLATE=C tr -cs …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.