2016-08-24 8 views
10

Używam nvidia GTX1080 gpu (8 GB) do uruchomienia Inception model na tensorflow, gdy ustawię batch_size = 16 i image_size = 400, a następnie po uruchomieniu programu, mój ubuntu14. 04 spowoduje automatyczne ponowne uruchomienie.system automatycznie uruchamia się ponownie, gdy model tensorflow jest zbyt duży

+0

Możesz chcieć dodać wartości batch_size i image_size, które wydają się powodować problem w uzyskaniu trafnych odpowiedzi. – fvu

+0

jaka jest konfiguracja systemu? – titus

+0

tensorflow powinien wyrzucać błąd braku pamięci, a nie restartować system. – suiyuan2009

Odpowiedz

1

Upewnij się, że to nie jest problem z zasilaczem. Obserwowałem dziwne sporadyczne restarty na mojej maszynie programistycznej. W miarę zwiększania rozmiaru danych wejściowych (wielkość partii, większa liczba NN) wzrastała również szybkość restartów. Okazało się, że to problem z zasilaczem. Szybkim sprawdzeniem jest ograniczenie zużycia energii GPU i sprawdzenie, czy to zachowanie zniknie. Na przykład, można ograniczyć moc do około 150 watów z tego polecenia (trzeba mieć uprawnienia sudo):

sudo nvidia-smi -pl 150 
0

I śledzone problemu w dół do wadliwego zasilacza. Miał wystarczającą pojemność zgodnie ze specyfikacją, a ograniczanie poboru mocy przez GPU przez uruchomienie "nvidia-smi -pl 150" wcale nie pomogło. Prawdopodobnie nie byłby w stanie poradzić sobie z impulsami w zużyciu energii.
W każdym razie, po zmianie zasilacza z "Corsair CX750 Builder Series ATX 80 PLUS" na "Cooler Master V1000", problem już minął. Zobacz szczegóły mojego dochodzenia w TensorFlow GitHub issue.

0

Zmiana ustawień zasilania GPU będzie działać, jeśli masz zasilacz z wystarczającą mocą (WATTS). Ograniczałem moc mojego GPU (TITANX) do max. 200 WATTS używa,

sudo nvidia-smi -pl 200 

UWAGA: Każdy GPU ma ograniczenia mocy, np. Limit mocy TITANX wynosi od 125 W do 300 W. Dlatego upewnij się, że wartość dodana jest pomiędzy tymi limitami.

Powiązane problemy