Naprawdę przepraszam za to inne pytanie noob, ale nie mogę naprawdę dowiedzieć się, co się tutaj dzieje. Chcę obliczyć częstotliwość słów z pliku, gdzie słowa są po linii. Plik jest naprawdę duży, więc to może być problem (liczy 300K linii w tym przykładzie)Dlaczego nie działa funkcja uniq na tym dużym pliku? bash
zrobić tego polecenia:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
i problemem jest to, że daje mi trochę błąd: to uważa mnie za te same słowa, co różne. Na przykład pierwsze pozycje:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
z giochi powtórzono dwukrotnie jak widać
na dole pliku staje się jeszcze gorzej, a wygląda to tak:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
dla wszystkich słów
Naprawdę bardzo mi przykro z powodu głupiego pytania, ale jestem trochę noob z programowaniem powłoki. Co robię źle?
thanks a lot
Useless wykorzystanie kota. – scai