Szukam prostego sposobu znalezienia długości najdłuższej linii w pliku. Idealnie byłoby to proste polecenie powłoki bash zamiast skryptu.
Szukam prostego sposobu znalezienia długości najdłuższej linii w pliku. Idealnie byłoby to proste polecenie powłoki bash zamiast skryptu.
Odpowiedzi:
Korzystanie z wc (GNU coreutils) 7.4:
wc -L filename
daje:
101 filename
-L
zależy od ustawień regionalnych. Niektóre znaki (zarówno bajtowe, jak i wielobajtowe) mogą nawet nie być liczone!
wc: illegal option -- L usage: wc [-clmw] [file ...]
gwc
jest w coreutils
formule, która instaluje wszystkie jądra GNU z g
prefiksem.
awk '{print length, $0}' Input_file |sort -nr|head -1
Dla odniesienia: Znajdowanie najdłuższej linii w pliku
END{}
bloku.
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE
awk '{ if (length($0) > max) max = length($0) } END { print max }' YOURFILE
awk 'length>max{max=length}END{print max}' file
awk '{ if (length($0) > max) {max = length($0); maxline = $0} } END { print maxline }' YOURFILE | wc -c
Tylko dla zabawy i celów edukacyjnych, czyste rozwiązanie powłoki POSIX , bez zbędnego korzystania z cat i bez wybierania poleceń zewnętrznych. Pierwszym argumentem jest nazwa pliku:
#!/bin/sh
MAX=0 IFS=
while read -r line; do
if [ ${#line} -gt $MAX ]; then MAX=${#line}; fi
done < "$1"
printf "$MAX\n"
< "$1"
niego można łatwo odczytać ze standardowego wejścia. Z testem $#
może to zrobić oba, w zależności od liczby argumentów. Po prostu nie ma potrzeby zbędnych kotów na tym świecie. Początkujących należy uczyć odpowiednio od samego początku.
longest < /usr/share/dict/words
perl -ne 'print length()." line $. $_"' myfile | sort -nr | head -n 1
Drukuje długość, numer linii i zawartość najdłuższej linii
perl -ne 'print length()." line $. $_"' myfile | sort -n
Drukuje posortowaną listę wszystkich linii z numerami i długościami linii
.
jest operatorem konkatenacji - używa się go tutaj po length (),
$.
gdzie bieżący numer linii
$_
jest bieżącą linią
wc -L
to najlepsze rozwiązanie, jakie do tej pory widziałem.
wc -L
3 sekundy
wc -L
wystarczy policzyć rekordy liczb - to Q miało znaleźć najdłuższą linię - niezupełnie takie same, więc nie jest to dokładne porównanie.
Ważny przeoczony punkt w powyższych przykładach.
Poniższe 2 przykłady zawierają rozwinięte karty
wc -L <"${SourceFile}"
# or
expand --tabs=8 "${SourceFile}" | awk '{ if (length($0) > max) {max = length($0)} } END { print max }'
Poniższe 2 liczą nie rozwinięte karty.
expand --tabs=1 "${SourceFile}" | wc -L
# or
awk '{ if (length($0) > max) {max = length($0)} } END { print max }' "${SourceFile}"
więc
Expanded nonexpanded
$'nn\tnn' 10 5
Wygląda na to, że odpowiedź nie podaje numeru najdłuższej linii. Następujące polecenie może podać numer linii i z grubsza długość:
$ cat -n test.txt | awk '{print "longest_line_number: " $1 " length_with_line_number: " length}' | sort -k4 -nr | head -3
longest_line_number: 3 length_with_line_number: 13
longest_line_number: 4 length_with_line_number: 12
longest_line_number: 2 length_with_line_number: 11
awk '{print length}' test.txt | sort -rn | head -1
. Jeśli potrzebujesz także rzeczywistej zawartości linii, to awk '{print length,$0}' test.txt | sort -k1 -rn| head -1
Oto odniesienia do odpowiedzi
cat filename | awk '{print length, $0}'|sort -nr|head -1
Dla zabawy, oto wersja Powershell:
cat filename.txt | sort length | select -last 1
I po prostu uzyskać długość:
(cat filename.txt | sort length | select -last 1).Length
sort
jako argument można wziąć plik filename.txt? Wtedy kot jest bezużyteczny, ponieważ sort length filename.txt | select -last 1
unika potoku i procesu, który po prostu kopiuje dane.
Jestem w środowisku Unix i pracuję z plikami spakowanymi gzipem o wielkości kilku GB. Przetestowałem następujące polecenia, używając 2 gzipowanego pliku o długości rekordu 2052.
zcat <gzipped file> | wc -L
i
zcat <gzipped file> | awk '{print length}' | sort -u
Czasy były na średnim poziomie
117 sekund
109 sekund
Oto mój skrypt po około 10 uruchomieniach.
START=$(date +%s) ## time of start
zcat $1 | wc -L
END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
START=$(date +%s) ## time of start
zcat $1 | awk '{print length}' | sort -u
END=$(date +%s) ## time of end
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
awk
wersja korzysta z buforowania bloków dysku dla wc
wersji, która jest uruchomiona jako pierwsza (i inicjuje pamięć podręczną dysku). Będziesz musiał losowo uporządkować, kto zostanie wywołany jako pierwszy w ciągu dziesięciu przebiegów, aby utrzymać ten argument.
Wariacja na temat.
Ten pokaże wszystkie linie mające długość najdłuższej linii znalezionej w pliku, zachowując kolejność, w jakiej pojawiają się w źródle.
FILE=myfile grep `tr -c "\n" "." < $FILE | sort | tail -1` $FILE
Więc mój plik
x
mn
xyz
123
abc
da
xyz
123
abc
Jeśli używasz MacOS i wc: illegal option -- L
pojawia się ten błąd:
nie musisz instalować GNU sipmly, zrób to.
Jeśli wszystko, co chcesz zrobić, to po prostu uzyskać liczbę znaków w najdłuższej linii pliku i używasz OS X run:
awk '{print length}' "$file_name" | sort -rn | head -1
Coś takiego;
echo "The longest line in the file $file_name has $(awk '{print length}' "$file_name" | sort -rn | head -1) characters"
Wyjścia:
The longest line in the file my_file has 117 characters
-c -l -m -w
opcje to POSIX.-L
to GNUism.