Godeke ma rację, robots.txt jest pierwszą rzeczą, którą należy zrobić, aby nie pobierać botów.
Jeśli chodzi o liczenie, jest to naprawdę problem z analityką internetową. Czy nie przechowujesz swoich dzienników dostępu do stron WWW i nie uruchamiasz ich za pomocą programu analitycznego, takiego jak Webalizer lub AWStats (lub wyszukanych alternatyw, takich jak Webtrends lub Urchin)? Dla mnie jest to sposób na zbieranie tego rodzaju informacji, ponieważ jest to łatwe i nie ma PHP, przekierowania ani innej wydajności, gdy użytkownik pobiera plik. Używasz tylko dzienników Apache, które i tak trzymasz. (I grep -c
da ci szybką 'n' brudną liczbę na konkretnym pliku lub wzorze wieloznacznym.)
Możesz skonfigurować oprogramowanie statystyczne, aby ignorowało trafienia przez roboty lub określone programy użytkownika i inne kryteria (a jeśli zmienisz twoje kryteria później, po prostu przerób stare dane dziennika). Oczywiście wymaga to wszystkich starych dzienników, więc jeśli rzuciłeś je z czymś w rodzaju logrotate
, musisz zacząć bez żadnych danych historycznych.
Należy użyć skryptu wykrywania przeglądarki z aktualną bazą danych klienta użytkownika. Oto [jeden] (http://chrisschuld.com/projects/browser-php-detecting-a-users-browser-from-php/#typicalusage). –