2016-04-25 32 views
18

Jak interpretować wyjście TensorFlow do budowania i wykonywania wykresów obliczeniowych na GPGPU?Jak interpretować wyjście TensorFlow?

Biorąc pod uwagę następujące polecenie, które wykonuje dowolny skrypt tensorflow przy użyciu interfejsu API Pythona.

python3 tensorflow_test.py> out

Pierwsza część stream_executor wydaje się jego ładowanie zależności.

I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcublas.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcudnn.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcufft.so locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcuda.so.1 locally 
I tensorflow/stream_executor/dso_loader.cc:105] successfully opened CUDA library libcurand.so locally 

Co to jest węzeł NUMA?

I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:900] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero 

Zakładam, to jest, gdy stwierdzi, dostępną GPU

I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties: 
name: Tesla K40c 
major: 3 minor: 5 memoryClockRate (GHz) 0.745 
pciBusID 0000:01:00.0 
Total memory: 11.25GiB 
Free memory: 11.15GiB 

Niektóre inicjalizacji GPU? co to jest DMA?

I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0: Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:755] Creating TensorFlow device (/gpu:0) -> (device: 0, name: Tesla K40c, pci bus id: 0000:01:00.0) 

Dlaczego wyświetla się błąd E?

E tensorflow/stream_executor/cuda/cuda_driver.cc:932] failed to allocate 11.15G (11976531968 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY 

Świetna odpowiedź na to, co robi pool_allocator: https://stackoverflow.com/a/35166985/4233809

I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 3160 get requests, put_count=2958 evicted_count=1000 eviction_rate=0.338066 and unsatisfied allocation rate=0.412025 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 100 to 110 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1743 get requests, put_count=1970 evicted_count=1000 eviction_rate=0.507614 and unsatisfied allocation rate=0.456684 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 256 to 281 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 1986 get requests, put_count=2519 evicted_count=1000 eviction_rate=0.396983 and unsatisfied allocation rate=0.264854 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 655 to 720 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:244] PoolAllocator: After 28728 get requests, put_count=28680 evicted_count=1000 eviction_rate=0.0348675 and unsatisfied allocation rate=0.0418407 
I tensorflow/core/common_runtime/gpu/pool_allocator.cc:256] Raising pool_size_limit_ from 1694 to 1863 

Odpowiedz

18

O NUMA - https://software.intel.com/en-us/articles/optimizing-applications-for-numa

z grubsza rzecz biorąc, jeśli masz podwójnego gniazda procesora, będą one każdy ma swoją własną pamięć i mieć dostęp do pamięci innego procesora przez wolniejsze łącze QPI. Zatem każda pamięć CPU + jest węzłem NUMA.

Potencjalnie można leczyć dwa różne węzły NUMA jako dwóch różnych urządzeń i struktury sieci w celu optymalizacji dla różnych wewnątrz-węzła/między węzłami przepustowość

Jednak nie sądzę, że wystarczy okablowanie w TF teraz zrobić to teraz. Wykrywanie też nie działa - po prostu próbowałem na komputerze z 2 węzłami NUMA i nadal drukowałem tę samą wiadomość i inicjowałem ją na 1 węzeł NUMA.

DMA = Bezpośredni dostęp do pamięci. Można potencjalnie skopiować dane z jednego GPU na inny procesor graficzny bez użycia procesora (np. Poprzez NVlink). Integracja NVLink jeszcze nie istnieje.

Jeśli chodzi o błąd, TensorFlow próbuje przydzielić blisko pamięci GPU max, więc brzmi, jakby część pamięci GPU została już przydzielona do czegoś innego, a alokacja nie powiodła się.

można zrobić coś jak poniżej, aby uniknąć przydzielania tak dużo pamięci

config = tf.ConfigProto(log_device_placement=True) 
config.gpu_options.per_process_gpu_memory_fraction=0.3 # don't hog all vRAM 
config.operation_timeout_in_ms=15000 # terminate on long hangs 
sess = tf.InteractiveSession("", config=config) 
2
  • successfully opened CUDA library xxx locally oznacza, że ​​biblioteka został załadowany, ale to nie oznacza, że ​​będzie on używany.
  • successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero oznacza, że ​​twoje jądro nie obsługuje NUMA.Możesz przeczytać o NUMA here i here.
  • Found device 0 with properties: masz 1 GPU, którego możesz użyć. Wymienia właściwości tego GPU.
  • DMA to bezpośredni dostęp do pamięci. Więcej informacji na temat Wikipedia.
  • failed to allocate 11.15G Błąd wyraźnie wyjaśnia, dlaczego tak się stało, ale trudno powiedzieć, dlaczego potrzebujesz tyle pamięci bez patrzenia na kod.
  • Komunikaty o przydzielaniu pul są objaśnione w pozycji this answer
Powiązane problemy