Mam plik tekstowy zawierający tweety i muszę policzyć, ile razy słowo jest wspomniane w tweecie. Na przykład plik zawiera:
Apple iPhone X is going to worth a fortune
The iPhone X is Apple's latest flagship iPhone. How will it pit against it's competitors?
Powiedzmy, że chcę policzyć, ile razy w pliku wspomniane jest słowo iPhone. Oto co próbowałem.
cut -f 1 Tweet_Data | grep -i "iPhone" | wc -l
to z pewnością działa, ale jestem zdezorientowany co do polecenia „wc” w unixie. Jaka jest różnica, jeśli spróbuję:
cut -f 1 Tweet_Data | grep -c "iPhone"
gdzie zamiast tego używane jest -c? Oba dają różne wyniki w dużym pliku pełnym tweetów i jestem zdezorientowany, jak to działa. Która metoda jest prawidłowym sposobem liczenia zdarzenia?
cut -f1
tnie na kartach, co niewiele tu robi. Czy na pewnowc -l
daje to prawidłową liczbę? Pokazuje tutaj 2, ale liczę 3 wystąpienia „iPhone'a”.