2016-08-30 15 views
6

Używam najnowszej wersji jądra 0.26.1, skonfigurowałem serwer sensu na jednej maszynie CentOS, skonfigurowałem jednego klienta sensu na drugim.Wykryto błąd klienta "wykonywanie poprzedniego polecenia wykonania polecenia czekania"

Istnieje około 500 czeków w jednym kliencie sensu, ciągle widzę "previous check command execution in progress" w pliku sensu-client.log, ale każde sprawdzenie faktycznie kończy się bardzo szybko (większość z nich jest krótsza niż 0,1 sekundy, a przerwa wynosi 60 sekund). , mogę potwierdź to, uruchamiając go pod sensu użytkownika sudo su sensu -c "{run my check}".

Jednakże rzeczywista sytuacja, w desce rozdzielczej Uchiwa, pokazuje wielu moich czeków biegali więcej niż 1 minutę, wydaje się, że klient sensu dostał poważnie zakleszczony/wolno, próbowałem następujących sposobów:

  1. Usuń kilka czeków długo działa i zrestartować serwer sensu/klient
  2. Dodaj do moich timeout definicję kontroli, czas oczekiwania ograniczenie do 10, a następnie doprowadziły w wielu kontroli „Wykonanie timed out”.
  3. Próbowałem tylko uruchomić 1, 10, 50 kontroli, wydaje się, że wszystko działało normalnie, jednak, jak tylko liczba kontroli osiągnie pewną liczbę może 200-300, wystąpił problem.

Żadna z powyższych czynności nie działa, czy istnieje sposób debugowania, które kontrolki faktycznie blokują? Czy mogę skonfigurować sensu, aby po prostu zabić czek, gdy przekroczy on definicję timeout? Tak, że nie będzie widać ten komunikat w dzienniku „poprzedniego wykonania polecenia check in progress”

mam zablokowany przez to i potrzebuję pomocy :)

Odpowiedz

1

W tym celu debugowania można oczywiście sprawdzić sensu-client.log . Można ustawić poziom dziennika w pliku domyślnych dla sensu

oprócz tego: ps aux | grep sensu pokaże, że każda kontrola pokaże się jako osobny proces i łatwo można ręcznie sprawdzić, czy i który sprawdza może odłożył słuchawkę. Zwykłym problemem jest raczej to, że są błędy w kontrolach, które powodują ich zawieszanie się, niż zawieszanie się klienta sensu.

Sam doświadczyłem tego z pewnymi kontrolami.

Aby uzyskać dokładniejszy opis problemu, potrzebne będą przynajmniej niektóre wyniki dzienników i polecenie ps [gdy wystąpi problem].

Powiązane problemy