Mam skrypt Pythona, który tworzy listę list uptime serwera i dane wydajności, gdzie każda podlista (lub "wiersz") zawiera statystyki poszczególnych klastra. Na przykład, ładnie sformatowane wygląda mniej więcej tak:Znajdowanie wartości odstających w zestawie danych
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
Więc w formie listy, to może wyglądać następująco:
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
Moje pytanie: Jaki jest najlepszy sposób, aby określić wartości odstających w każdej kolumnie? Czy też odstające niekoniecznie są najlepszym sposobem na zaatakowanie problemu znalezienia "zła"? W powyższych danych zdecydowanie chciałbym wiedzieć o bos-b i ord-b, a także ams-a, ponieważ wskaźnik błędów jest tak wysoki, ale pozostałe można odrzucić. W zależności od kolumny, ponieważ wyższa nie jest niekoniecznie gorsza, ani mniejsza, staram się wymyślić najbardziej skuteczny sposób, aby to zrobić. Wygląda na to, że numpy jest często wspominany o takich rzeczach, ale nie wiem, od czego zacząć (niestety, jestem bardziej sysadmin niż statystyk ...).
Z góry dziękuję!
Dlaczego nie zadać pytania na stronie [stats.SE] (http://stats.stackexchange.com/)? – csgillespie
@csgillespie Dobry pomysł, zrobi! – septagram
duplikat http://stats.stackexchange.com/questions/6013/finding-outliers-in-a-data-set –