2012-07-29 13 views
8

W jaki sposób można podzielić istniejące pliki dziennika Apache na osobne pliki według miesiąca?Jak podzielić istniejący plik dziennika Apache na miesiąc?

Przeszukałem internet i nic nie mogę znaleźć. Tak, wiem o logrotate i cronologu io tym wszystkim. Ale nic, co znalazłem, nie pomaga mi w dzieleniu istniejących plików.

Czy istnieje skrypt awk?

Oto fragment danych:

124.115.5.11 - - [30/May/2011:23:21:37 -0500] "GET/HTTP/1.0" 200 206492 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322;TencentTraveler)" 
58.61.164.39 - - [31/May/2011:00:36:35 -0500] "GET/HTTP/1.0" 200 206492 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322;TencentTraveler)" 
114.80.93.55 - - [31/May/2011:01:42:17 -0500] "GET/HTTP/1.0" 200 206492 "-" "Sosospider+(+http://help.soso.com/webspider.htm)" 
114.80.93.73 - - [31/May/2011:02:03:44 -0500] "GET/HTTP/1.0" 200 206492 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322;TencentTraveler)" 
123.125.71.98 - - [31/May/2011:12:33:30 -0500] "GET/HTTP/1.1" 103 24576 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" 
220.181.108.187 - - [31/May/2011:12:33:55 -0500] "GET/HTTP/1.1" 103 24576 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" 
123.125.71.117 - - [31/May/2011:13:27:56 -0500] "GET/HTTP/1.1" 103 24576 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" 
123.125.71.78 - - [31/May/2011:16:45:48 -0500] "GET /node/54 HTTP/1.1" 200 3219 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 
124.115.1.8 - - [31/May/2011:19:59:58 -0500] "GET/HTTP/1.1" 200 206492 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" 
123.125.71.69 - - [31/May/2011:22:05:46 -0500] "GET/HTTP/1.1" 200 206492 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 

Oto moje rozwiązanie, znacznie zainspirowany odpowiedź Steve'a poniżej:

Jednym ze sposobów korzystania awk:

awk 'BEGIN { 
    split("Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec ", months, " ") 
    for (a = 1; a <= 12; a++) 
     m[months[a]] = a 
} 
{ 
    year = array[3] 
    month = sprintf("%02d", m[array[2]]) 

    split($4,array,"[:/]"); 
    print > FILENAME"-"year"_"month".txt" 
}' incendiary.ws-2009 

Będzie pliki wyjściowe, takie jak:

incendiary.ws-2010-2010_04.txt 
incendiary.ws-2010-2010_05.txt 
incendiary.ws-2010-2010_06.txt 
incendiary.ws-2010-2010_07.txt 

Przeciwko pliku dziennika 150 MB, zaakceptowanej Odpowiedz przez chepner wziął 70 sekund na 3,4 GHz 8 Xeon E31270, a ta metoda wzięła 5 sekund.

pierwotnej inspiracji: https://stackoverflow.com/a/11714105/430062

+1

ludzie, którzy znają awk (lub coś :) niekoniecznie wiedzą lub mają dostęp do plików danych, które próbują Aby manipulować, byłoby dobrze, gdybyś mógł podać parę par wejścia/wyjścia, aby pokazać, z czym pracujesz/chcesz wyjść, jeśli to możliwe. – Levon

+0

Zaimplementowałem Twoją doskonałą sugestię. –

Odpowiedz

12

Jednym ze sposobów, za pomocą awk:

pliki wyjściowe
awk '{ split($4,array,"/"); print > array[2] ".txt" }' file.txt 

to będzie tak:

May.txt 
June.txt 
July.txt 
etc 

EDIT:

Może chciałoby zachować lata oddzielny:

awk '{ split($4,array,"[:/]"); print > array[2] array[3] ".txt" }' file.txt 

będzie to pliki wyjściowe, takie jak:

May2011.txt 
May2012.txt 
July2011.txt 
etc 
+1

Zmodyfikowałem twój algorytm, aby utworzyć format FILENAME-RRRR_MM. Włożyłem to w moje pytanie. –

Powiązane problemy