Mam około 350 plików tekstowych (a każdy plik ma około 75 MB). Próbuję połączyć wszystkie pliki i usunąć zduplikowane wpisy. Plik znajduje się w następującym formacie:łączenie wielu plików tekstowych i usuwanie duplikatów.
ip1,dns1
ip2,dns2
...
napisałem mały skrypt, aby zrobić to
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
robię to często przetwarzanie i zastanawiałem się, czy jest coś mogę zrobić, aby poprawić przetwarzanie następnym razem, kiedy go uruchomię. Jestem otwarty na każdy język programowania i sugestie. Dzięki!
możesz również dać sort -ma spróbować -> będzie sortować poszczególne pliki i scalać je odpowiednio więc powinno zaoszczędzić sporo czasu .... opcja -m była dostępna espl dla takiego scenariusza ... to znaczy -m plik * | uniq -u – nsd